检测文本的语言是英文PDF或DOC文件

时间:2011-08-25 10:41:33

标签: c#

要求是我想确定用PDF或Doc编写的文本是英语还是非英语。如果我得到一个单词(turiskh,法语,阿拉伯语等)必须避免整个documnet

紧急plz给我这个功能的示例代码

4 个答案:

答案 0 :(得分:2)

查看Google翻译API,只有免费服务谁能为您做到我所知道的。否则我只能看到拥有自己的字典等的解决方案。但那是一个不同的故事

答案 1 :(得分:1)

我猜你可以使用LangId。但是有一些限制:

  

要在实时网站或服务中使用我们的API,我们建议您使用以下表单申请免费的API密钥。 API密钥扩展了您的开发可能性,允许您每小时执行1,000个请求(每月约720,000个请求)。

我不认为这会解决你的“单字”问题。我相信如果文本有6个单词的英语和4个单词的另一种语言,它会将文本视为英语,因为该语言主要用于文件。我自己没有看过API,所以可能会有一些解决方案。

希望它对您有用。

答案 2 :(得分:0)

Google的Translate API的检测功能可能对您有所帮助:

http://code.google.com/apis/language/translate/v2/getting_started.html#language_detect

答案 3 :(得分:0)

对于单个单词,这是不可能的。

“是”一个英文单词?嗯,是的,但这也是丹麦语(意思是茶)。 Schadenfreude这个词是否表示非英文文本?不一定,这一切都取决于具体情况。

添加到支持语言确定的API列表中,Bing API会调用一个字符串数组的语言。

http://msdn.microsoft.com/en-us/library/ff512412.aspx

希望这有所帮助。

相关问题