我正在尝试指定要使用的语言。在下面的示例中,我定义了荷兰语和法语。根据langid文档,应该将注释分类为这两种语言之一,但结果却给了我英语。我不确定我是否正确使用set_languages函数。我在做什么错了?
from langid.langid import LanguageIdentifier, model, set_languages
comment = 'I am trying to test the set_languages function in the langid package'
set_languages(langs=['nl','fr'])
language_identifier = LanguageIdentifier.from_modelstring(model, norm_probs=True)
lang_id = language_identifier.classify(comment)
这将返回:
('en', 1.0)
答案 0 :(得分:1)
有点晚了,但是我遇到了同样的问题,在查看langid源时,似乎全局set_languages函数仅影响LanguageIdentifier的全局实例(在langid.py内部),因此是为自己的语言设置语言的正确方法实例就是在该实例上调用set_languages方法,即
language_identifier.set_languages(langs=['nl','fr'])
在上面的示例中。