从数据挖掘到RDF

时间:2018-10-02 11:05:41

标签: rdf jena ontology

我一直在学习Apache Jena教程,它们非常简单。我的问题是,如果我要在文本上进行数据挖掘,例如:对于教科书中的每个段落,我都会得到人们的姓名,位置,关键词等……使用本体将其转换为rdf的最简单方法是什么?

1 个答案:

答案 0 :(得分:1)

假设您已经从文本中以字符串形式提取了实体(例如<人名>,<组织名称>,等),则只需在耶拿使用ModelFactory创建模型,然后使用model.createResource(uri)用资源填充模型,并使用.addProperty()填充资源属性,如耶拿(Jena)示例和文档所示。这些示例还展示了如何在RDF中打印模型(遍历语句并使用stmt.getSubject()stmt.getPredicate()stmt.getObject()。就本体论而言,您可以发明自己的模型或更可取的是,使用现有的词汇表,例如,假设您决定使用schema.org中的Person类,则需要将资源的rdf:type指定为https://schema.org/Person。 ,则可以使用该词汇表中的属性,例如https://schema.org/name,该属性继承自https://schema.org/Thing(因为所有内容都可以在schema.org docs中找到)。您不一定需要将本体放在模型或只要您使用URI来正确构造实例,这些URI可以从所使用的词汇表或本体中识别类和属性。如果确实有程序需求,则可以在模型中使用该词汇表,但是我认为您应该查看{ {3}}。