我在Spark Streaming工作中遇到问题。这项工作将执行以下过程。 -读取流数据 -将流数据与Hive表连接(基础数据存在于HBase中。
程序运行2-3周,但随后失败,并显示以下消息。
for i in range(len(data['features'])):
if 'Text' in data['features'][i]['properties']:
data['features'][i]['properties']['Text'] \
= data['features'][i]['properties']['Text']\
.replace('\\pt8;', '')\
.replace('{\\fSimSun|b0|i0|c134|p2;', '')
有人可以向我解释如何解决此问题。尽管集群是内核化的。
谢谢