pyspark将中文字符读成unicode字符串

时间:2016-03-02 23:20:46

标签: apache-spark pyspark

我正在尝试在pyspark中阅读带有中文字符的文本文件。但数据内部将其视为unicode字符串并将其保存/显示为unicode。我想把它们保存为中国人。

我正在使用Jupyter笔记本 Python 2.7 spark:spark-1.6.0-bin-hadoop2.6

实际数据: "广东省电白建筑工程总公司" | 2015年8月5日 "广东省阳江市建安集团有限公司" | 2015年7月9日

代码:
data = sc.textFile(" /Users/msr/Desktop/newsData0210.txt") data.take(1)

O / P: U'" \ u5e7f \ u4e1c \ u7701 \ u7535 \ u767d \ u5efa \ u7b51 \ u5de5 \ u7a0b \ u603b \ u516c \ u53f8" | 2015年8月5日'

请建议是否有办法避免这种自动转换

编辑: @Alberto Bonsanto ..我的终端可以显示unicodes。 Spark内部将中文字符串转换为unicode字符串。其实我需要对数据进行分类。这种自动转换导致了问题。有没有办法阻止这种自动转换。

解决: 当我们从2.7更新python到3.4时问题得到了解决。不知道为什么它失败了python 2.7。我已经尝试了在这个帖子中给出的其他参考文章中提到的选项。

0 个答案:

没有答案