我如何在语义上表示通用的,提取的文本?

时间:2015-05-04 15:43:21

标签: rdf semantic-web owl semantic-markup schema.org

我正在开发一个从网页中提取内容并将此内容规范化为一组离散类型的项目。现在我只处理文本和图像。

对于图片,我找到了https://schema.org/ImageObject,这似乎很合适。

但是,对于文字,我不知道该使用什么。除了原始数据类型http://schema.org/Text之外,我在schema.org上找不到代表通用文本的任何内容。我不熟悉链接的语义数据,也不确定基元是否打算用作全开型。

此外,我希望能够通过在源网页上使用来区分文本片段。例如,我希望能够指定一段文本是段落文本,而另一段是标题文本。在schema.org上有https://schema.org/WebPageElement,其中还包含https://schema.org/WPHeader,但没有WPParagaph或WPTextFragment,或类似的东西。

我查看了其他词汇表,但不确定哪些词汇表适合。最重要的是,我希望使用已经存在并且人们认可的东西。

1 个答案:

答案 0 :(得分:2)

你有没有看过W3C的Open Annotation本体? (http://www.openannotation.org/spec/core/core.html#BodyEmbed)。目前它只是一个草稿,但它可以帮助您注释文本。它还允许您断言您从哪个文档中提取了注释的文本和所有权(即它们的出处)。我不认为它包含诸如“标题”之类的术语,但它具有用于指定要注释的带注释的网页/文档的具体部分的选择器:http://www.openannotation.org/spec/core/specific.html#TextPositionSelector

它还提供了注释图像区域的机制(http://www.openannotation.org/spec/core/specific.html#SvgSelector)。它可能是你想要的简单或复杂。

相关问题