查询DBpedia的部分URI外部链接和官方网站匹配

时间:2014-07-05 07:13:20

标签: sparql dbpedia

我正在尝试根据"官方网站"检索维基百科页面。在他们身上指定,但最好不要去构建维基百科的完整索引。如果我使用以下方式查询DBpedia:

SELECT ?s WHERE {
   ?s foaf:homepage <http://www.nytimes.com>
}

我得到了理想的结果,但在尝试完成这项工作时有几个问题:

  1. foaf:homepage大部分未设置。

  2. 我找不到可以查询到&#34;官方网站&#34;的查询功能。在某些情况下,基于dbpedia-owl:wikiPageExternalLink的查询有效,但当然在其他情况下,您会获得恰好将此页面作为链接的网页列表。

  3. 网址采用各种形式 - www.example.com,www.example.com /,www.example.com / index.html等,我无法找到一种有效的查询方式基于正则表达式甚至在STRSTARTS上 - 似乎总是涉及产生巨大的查询结果然后过滤。

1 个答案:

答案 0 :(得分:0)

您正在研究DBPedia中的大量数据有些不完整或格式不正确的事实。这或多或少是不可避免的,因为它的源材料是相同的。例如,foaf:homepage有时会丢失,但这可能是因为在源维基百科页面中缺少相同的信息。话虽这么说,有时DBPedia人使用的爬行工具会错过一个技巧 - 如果你认为将维基百科数据转换为RDF时做错了,就让他们直接知道,他们可以调整他们的爬虫。

除此之外,你的问题有点过于宽泛,无法回答。 foaf:homepage是用于特定主题的官方网站的属性。如果没有设置,你根本就不知道官方网站是什么。 dbpedia-owl:wikiPageExternalLink是wiki文章引用的任何外部资源的一般链接 - 因此它不仅仅是官方网站。

至于格式化 - 我还没有看到这个,我在浏览时遇到的大多数链接都是完全形成的URL。如果您希望我们回答您需要编辑您的问题以包含一些具体示例。