多语言OpenCalais就像系统一样?

时间:2008-11-26 09:13:03

标签: rdf semantic-web multilingual semantic-analysis opencalais

我对OpenCalais系统印象非常深刻。它是(有/)一个Web服务,您可以在其中发送文本,分析它,然后为您提供一系列文档所属的分类(RDF启用)标记。

但是 - 目前 - 英语是唯一支持的语言。

您是否知道处理多语言文档的类似系统? (我对意大利语感兴趣,但当然多语言是一个加号)

2 个答案:

答案 0 :(得分:3)

Apache Stanbol可以分析多种语言的文本。到目前为止,支持以下语言(精度和召回值可能因语言而异):

  • 英,
  • 中文(中文),
  • Español(西班牙语),
  • Русский(俄语),
  • Português(葡萄牙语),
  • Deutsch(德国),
  • Italiano(意大利语)
  • Nederlands(荷兰语),
  • Svenska(瑞典语),
  • Dansk(丹麦语),
  • العربية(阿拉伯语),
  • עברית(希伯来语),
  • 日本语(日语)。

分析将返回发现的实体。分析输出格式可以是:

  • JS​​ON-LD,
  • RDF / XML,
  • RDF / JSON,
  • 海龟,
  • 的N-三元组。

可以根据系统配置进一步定制文本的实体或标记。理想情况下,任何自定义词汇表都可以插入系统。

有几个演示终点:

不确定上述终点是否支持以上所有语言。

RedLink GmbH将提供基于Apache Stanbol和相关软件的云服务。

WordPress的WordLift plugin已在WordPress中为所有上述语言(目前处于测试阶段)提供文本分析。您可以尝试在WordPress中安装插件并在帖子正文中提交文本内容。

您还可以订阅并写信给Apache Stanbol mailing list以获取特定请求或信息。

答案 1 :(得分:0)

OpenCalais支持实体的法语和西班牙语元数据标记。该组实体将在未来版本中进行扩展。请参阅http://www.opencalais.com/documentation/calais-web-service-api

上的在线文档