hive on spark rpc channel is closed

在新安装好的CDH集群上跑一个
select count(*) from bigtable
一启动spark任务就报错。但是一些小表查询,无需启动spark任务的sql就很快。说明问题出在了spark上。

在任务管理器里面,看到只启动了一个executor,关键是任务已经失败了,还有部分task一直处于running状态。

hive中的报错信息非常简单,死活找不到问题。
最后启用了spark-shell,用scala去执行同样的sql,结果日志报错非常的明显。。而且一目了然!!
而且日志里面写清楚了是node17的问题:


Can't create directory
/bigdata/diskb/yarn/nm/usercache/hive/appcache/application_1543298149182_0044 - Permission denied
Can't create directory
/bigdata/diskc/yarn/nm/usercache/hive/appcache/application_1543298149182_0044 - Permission denied
Can't create directory
/bigdata/diskd/yarn/nm/usercache/hive/appcache/application_1543298149182_0044 - Permission denied
Can't create directory
/bigdata/diske/yarn/nm/usercache/hive/appcache/application_1543298149182_0044 - Permission denied
Can't create directory
/bigdata/diskf/yarn/nm/usercache/hive/appcache/application_1543298149182_0044 - Permission denied
Can't create directory
/bigdata/diskg/yarn/nm/usercache/hive/appcache/application_1543298149182_0044 - Permission denied
Can't create directory
/bigdata/diskh/yarn/nm/usercache/hive/appcache/application_1543298149182_0044 - Permission denied
Can't create directory
/bigdata/diski/yarn/nm/usercache/hive/appcache/application_1543298149182_0044 - Permission denied
Can't create directory
/bigdata/diskj/yarn/nm/usercache/hive/appcache/application_1543298149182_0044 - Permission denied
Can't create directory
/bigdata/diskk/yarn/nm/usercache/hive/appcache/application_1543298149182_0044 - Permission denied

所以以后一旦出现hive sql查不出问题明细的时候,一定要使用spark-shell差错。感觉非常的清楚。
问题明确:
node17上的yarn nodemanager有问题了。那个数据目录没有权限。
解决方法:
1、依然是简单粗暴的方法:直接废掉node17的nodemanager,不就损失一个节点吗。。

2、变更目录权限与其他节点一直:其实我给那两个目录授权了 hive:yarn,使其权限和其他节点一样的权限。可惜还是不行。
—后来发现我错了。。其实我只变更了一块盘,这个节点的yarn一共有十个数据盘。。。。我需要处理十次。

3、删除usercahce下的所有目录!参考资料:

rm -rf /dn/yarn/nm/usercache/*

发表评论

电子邮件地址不会被公开。 必填项已用*标注