目前,我正在使用nlp和python进行项目开发。我有内容,需要查找语言。我正在使用spacy来检测语言。图书馆仅提供英语语言。我需要查找是英式还是美式英语?有什么建议吗?
我尝试使用Spacy,NLTK和lang-detect。但是该库仅提供英语。但我需要在英国显示为en-GB,在美国显示为en-US。
答案 0 :(得分:1)
您可以训练自己的模型。关于英语的许多地理位置特定的数据均为collected by University of Leipzig,但其中不包括美国英语。 American National Corpus应该是您可以使用的免费子集。
流行的语言 langid.py 库可以训练您自己的模型。他们有一个不错的tutorial on github。他们的模型基于字符三元语法频率,在这种情况下,这可能不足以区分统计数据。
另一种选择是使用例如Pytorch和transormers库在BERT之上训练分类器。这肯定会取得很好的结果,但是如果您没有深度学习的经验,那么实际上可能会为您带来很多工作。