英式英语和美式英语的Python NLP差异

时间:2019-10-01 09:24:52

标签: python nlp stanford-nlp spacy

目前,我正在使用nlp和python进行项目开发。我有内容,需要查找语言。我正在使用spacy来检测语言。图书馆仅提供英语语言。我需要查找是英式还是美式英语?有什么建议吗?

我尝试使用Spacy,NLTK和lang-detect。但是该库仅提供英语。但我需要在英国显示为en-GB,在美国显示为en-US。

1 个答案:

答案 0 :(得分:1)

您可以训练自己的模型。关于英语的许多地理位置特定的数据均为collected by University of Leipzig,但其中不包括美国英语。 American National Corpus应该是您可以使用的免费子集。

流行的语言 langid.py 库可以训练您自己的模型。他们有一个不错的tutorial on github。他们的模型基于字符三元语法频率,在这种情况下,这可能不足以区分统计数据。

另一种选择是使用例如Pytorch和transormers库在BERT之上训练分类器。这肯定会取得很好的结果,但是如果您没有深度学习的经验,那么实际上可能会为您带来很多工作。