我对OpenCalais系统印象非常深刻。它是(有/)一个Web服务,您可以在其中发送文本,分析它,然后为您提供一系列文档所属的分类(RDF启用)标记。
但是 - 目前 - 英语是唯一支持的语言。
您是否知道处理多语言文档的类似系统? (我对意大利语感兴趣,但当然多语言是一个加号)
答案 0 :(得分:3)
Apache Stanbol可以分析多种语言的文本。到目前为止,支持以下语言(精度和召回值可能因语言而异):
分析将返回发现的实体。分析输出格式可以是:
可以根据系统配置进一步定制文本的实体或标记。理想情况下,任何自定义词汇表都可以插入系统。
有几个演示终点:
不确定上述终点是否支持以上所有语言。
RedLink GmbH将提供基于Apache Stanbol和相关软件的云服务。
WordPress的WordLift plugin已在WordPress中为所有上述语言(目前处于测试阶段)提供文本分析。您可以尝试在WordPress中安装插件并在帖子正文中提交文本内容。
您还可以订阅并写信给Apache Stanbol mailing list以获取特定请求或信息。
答案 1 :(得分:0)
OpenCalais支持实体的法语和西班牙语元数据标记。该组实体将在未来版本中进行扩展。请参阅http://www.opencalais.com/documentation/calais-web-service-api
上的在线文档