如何在 .dic 文件中使用包含特殊字符(ü)的单词?(Python)

时间:2021-01-06 02:32:30

标签: python utf-8 character-encoding special-characters

我正在尝试使用翻译后的 LIWC 词典对文本进行分类。但是我使用的库 ($pip install liwc) 无法解析包含特殊土耳其语字符的单词,例如“ü”。

这是我用于测试目的的 .dic 文件。

%
4   sad
19  health
%
terketmek   4
kürtaj  19

因此,当我尝试解析这句话“kabul terketmek naber yawru a asit kürtaj yapabilmek”时。它没有对单词“kürtaj”进行分类,因为它包含“ü”。

我试图自己解决这个问题,但我发现我使用的库在读取我提供的 .dic 文件中的行时,会像“kürtaj”一样解析“kürtaj”这个词。

所以,可能这就是图书馆不对“kürtaj”这个词进行分类的原因,因为它在翻译中丢失了:)

提前致谢!

https://docs.npmjs.com/resolving-eacces-permissions-errors-when-installing-packages-globally

1 个答案:

答案 0 :(得分:0)

我只是尝试将 encoding='utf8' 作为参数添加到 open 函数中,它读取文件并运行。

相关问题