多语言语料库,用于训练数据集

时间:2019-05-23 13:18:30

标签: python nlp multilingual corpus language-detection

我想构建一种语言检测应用程序,用于识别文档的语言。

除了我自己的数据外,我还想使用一些多语言语料库,因为我认为它们将有助于分类。

我对主要的欧洲语言感兴趣:英语,法语,德语,意大利语,西班牙语等。

我不确定在哪里可以找到它们。

NTLK似乎没有与多种语言完全一样的东西。

您还有其他建议吗?

否则,我可以只从Wiki以多种语言对数据进行网络爬取。

0 个答案:

没有答案