rdf - 我如何在语义上表示通用的，提取的文本？

我正在开发一个从网页中提取内容并将此内容规范化为一组离散类型的项目。现在我只处理文本和图像。

对于图片，我找到了https://schema.org/ImageObject，这似乎很合适。

但是，对于文字，我不知道该使用什么。除了原始数据类型http://schema.org/Text之外，我在schema.org上找不到代表通用文本的任何内容。我不熟悉链接的语义数据，也不确定基元是否打算用作全开型。

此外，我希望能够通过在源网页上使用来区分文本片段。例如，我希望能够指定一段文本是段落文本，而另一段是标题文本。在schema.org上有https://schema.org/WebPageElement，其中还包含https://schema.org/WPHeader，但没有WPParagaph或WPTextFragment，或类似的东西。

我查看了其他词汇表，但不确定哪些词汇表适合。最重要的是，我希望使用已经存在并且人们认可的东西。

我如何在语义上表示通用的，提取的文本？

1 个答案: