我正在尝试使用翻译后的 LIWC 词典对文本进行分类。但是我使用的库 ($pip install liwc) 无法解析包含特殊土耳其语字符的单词,例如“ü”。
这是我用于测试目的的 .dic 文件。
%
4 sad
19 health
%
terketmek 4
kürtaj 19
因此,当我尝试解析这句话“kabul terketmek naber yawru a asit kürtaj yapabilmek”时。它没有对单词“kürtaj”进行分类,因为它包含“ü”。
我试图自己解决这个问题,但我发现我使用的库在读取我提供的 .dic 文件中的行时,会像“kürtaj”一样解析“kürtaj”这个词。
所以,可能这就是图书馆不对“kürtaj”这个词进行分类的原因,因为它在翻译中丢失了:)
提前致谢!
https://docs.npmjs.com/resolving-eacces-permissions-errors-when-installing-packages-globally
答案 0 :(得分:0)
我只是尝试将 encoding='utf8'
作为参数添加到 open
函数中,它读取文件并运行。