hadoop集群中的一个节点发生故障

时间:2015-04-17 09:30:51

标签: hadoop cluster-computing

我最近配置了10个节点HDP hadoop集群,每个节点都是OS SLES11 ..

在主节点上,我已经配置了所有主服务和客户端......也就是mabari-server。剩余节点其他从属服务及其客户端。

NTP同步已启用,其他先决条件也可以。

我在hadoop集群上遇到奇怪的行为,在几小时内启动所有服务后,其中一个节点出现故障。

当我第一次遇到这种情况时,我已重新启动该特定节点并添加回群集。 现在,我的主节点导致同一问题,因为整个群集已关闭。我检查了日志,但没有迹象表明失败。 我无能为力导致hadoop集群中节点失败的根本原因是什么?

以下是日志: - 倒下的系统: 的的/ var /日志/消息

  

这些是/ var / log / messages:notice)= 0',processed ='source(src)= 6830'   4月23日05:22:43 lnx1863 SuSEfirewall2:SuSEfirewall2未激活4月23日   05:23:49 lnx1863 SuSEfirewall2:SuSEfirewall2未激活4月23日   05:24:17 lnx1863 sudo:root:TTY = pts / 0; PWD = /; USER = root;   COMMAND = / usr / bin / du -h / Apr 23 05:24:55 lnx1863 SuSEfirewall2:   SuSEfirewall2未激活4月23日05:25:22 lnx1863内核:   [248531.127254] megasas:在FAULT状态下找到FW,将重置适配器。   4月23日05:25:22 lnx1863内核:[248531.127260] megaraid_sas:   重置融合适配器。 4月23日05:25:22 lnx1863内核:   [248531.127427] megaraid_sas:不支持重置,杀死适配器。

namenode日志: -

  

INFO 2015-04-23 05:27:16565 Heartbeat.py:78 - 建立心跳:   {responseId = 7607,timestamp = 1429781263665,commandsInProgress =   False,componentsMapped = True} INFO 2015-04-23 05:28:44,153   security.py:135 - 遇到通信错误。细节:   SSLError('读取操作超时',)ERROR 2015-04-23   05:28:44,153 Controller.py:278 - 与http://localhost的连接是   丢失(详情=请求   https://localhost:8441/agent/v1/heartbeat/localhostip由于失败而失败   连接到服务器时出错:读取操作   超时)INFO 2015-04-23 05:29:16,061 NetUtil.py:48 - 连接到   https://localhost:8440/connection_info INFO 2015-04-23 05:29:16,118   security.py:93 - 调用SSL Connect ..连接到服务器

0 个答案:

没有答案