语言检测

时间:2011-11-25 14:11:39

标签: python

有没有人有经验如何使用python确定文本的语言? 在python中是否有可用的模块?

我已经尝试过谷歌应用程序(http://ajax.googleapis.com/ajax/services/language/detect),它运行正常,但我不能长期使用它来加载大量文本文件。

3 个答案:

答案 0 :(得分:3)

我从来没有试过这个,但看起来你可以用NLTK(自然语言Tookit)做到这一点。有关示例,请参阅此blog post

以下问题的答案也可能相关:NLTK and language detection

答案 1 :(得分:0)

您可以将Language Detection API用作Python作为Web服务。它通过GET或POST接受文本,并为JSON输出提供分数。

答案 2 :(得分:0)

CLD3 neural network model有Python绑定(通过Cython),这是Chrome用于离线语言检测的功能。

pip install cld3

https://github.com/Elizafox/cld3

>>> cld3.get_language("This is a test")
LanguagePrediction(language='en', probability=0.9999980926513672, is_reliable=True, proportion=1.0)

>>> cld3.get_frequent_languages("This piece of text is in English. Този текст е на Български.", 5)
[LanguagePrediction(language='bg', probability=0.9173890948295593, is_reliable=True, proportion=0.5853658318519592), LanguagePrediction(language='en', probability=0.9999790191650391, is_reliable=True, proportion=0.4146341383457184)]