dbpedia html的结果

时间:2013-06-14 19:56:56

标签: sparql dbpedia

有时我会识别属性dbpedia-owl中的一些html片段:abstract

以下是一个示例http://dbpedia.org/page/Albizia_julibrissin,您可以在其中看到英文摘要中的一些html片段( 强调 ):

此页面是关于Antonio Durazzini描述的树。约翰吉尔伯特贝克使用相同的科学名称来指代Prain的Albizia kalkora,威廉罗克斯堡的含羞草kalkora。 colspan = 2 style =“text-align:center; background-color:transparent; text-align:center; border:1px solid red;” |波斯丝绸树文件:在塞瓦斯托波尔的合欢julibrissin 1. jpg Habitus保护状态未评估colspan = 2 style =“text-align:center; background-color:transparent; text-align:center; border:1px solid red;” |科学分类王国:Plantae(未分类):被子植物(未经分类):Eudicots(未分类):Rosids命令:Fabales科:豆科植物属:合欢属物种:A。julibrissin colspan = 2 style =“text-align:center; background-color:透明;文本对齐:中心;边框:1px纯红色;“ |二项名称Albizia julibrissin colspan = 2 style =“text-align:center; background-color:transparent; text-align:center; border:1px solid red;” |同义词很多,见文 合欢树属于合欢属的豆科植物,原产于西南亚和东亚,从波斯东部到中国和韩国。它也被广泛称为“含羞草”和“'波斯丝绸树'。该属以意大利贵族Filippo degli Albizzi命名,属于着名的佛罗伦萨家族Albizzi,于18世纪中期将其引入欧洲,它有时是错误拼写的合欢。特定的加词julibrissin是波斯语词gul-i abrisham(گلابریشم)的腐败,意思是“丝花”(来自gulگل“flower”+ abrishamابریشم“silk”)。

有没有办法剥离/提取这些片段,以便抽象属性是人类可读的?

1 个答案:

答案 0 :(得分:0)

数据条目dbpedia中存在问题。标题

  

“这个页面是关于Antonio Durazzini描述的树。约翰   Gilbert Baker使用相同的学名来指Prain's   Albizia Kakora,William Roxburgh的含羞草Kakora。“

通常与属性dbpedia-owl:abstract。

无关

DBpedia SPARQL endpoint开始,SPARQL 1.1解决方案是:

select distinct ?clean_abstract 
where {
  <http://dbpedia.org/resource/Albizia_julibrissin> <http://dbpedia.org/ontology/abstract> ?abstract.
  filter (lang(?abstract) = 'en')
  bind (strafter(?abstract,"see text ") as ?clean_abstract)
}

包含此标题的另一个解决方案(但不应该链接到此属性):

select distinct ?clean_abstract 
where {
  <http://dbpedia.org/resource/Albizia_julibrissin> <http://dbpedia.org/ontology/abstract> ?abstract.
  filter (lang(?abstract) = 'en')
  bind (concat(strbefore(?abstract,"colspan="), strafter(?abstract,"see text ")) as ?clean_abstract)
}