在rdf / n3文件中按名称搜索

时间:2012-04-20 10:36:35

标签: python rdf sparql rdflib

我必须在turtle / n3文件中执行一些过滤,返回另一个相同类型的文件。 我工作的基本数据元素(位置)是:

:pt0001
     vcard:category "Poste e Telegrafi"
    ; vcard:fn "Ufficio Bologna 1"
    ; vcard:extended-address "Via Cairoli 9, Bologna BO, Italy"
    ; vcard:latitude "44.504192"
    ; vcard:longitude "11.338661"
    ; vcard:tel "051 243425"
    ; vcard:fax "051 244459"
    ; cs:opening "Mon, Tue, Wed, Thu, Fri: 0800-1330. Sat: 0800-1230."
    ; cs:closing "01-01, 01-06, P, LA, 04-25, 05-01, 06-02, 08-15, 11-01, 12-08, 12-25, 12-26: .".

例如,我希望搜索具有特定名称或纬度或类别的元素(ptxxxx)。我已经被建议在查询中使用构造来从rdf检索三元组,所以我可以将它们添加到我正在构建的新图形/ rdf中。事实是,如果我使用正则表达式过滤器函数过滤三元组来搜索(不区分大小写)名称,我只得到一个三元组,在这种情况下定义我正在寻找的名称。例如,是否可以搜索名称为(谓词)“Ufficio Bologna 1”(对象)的主题(ptxxxx)?

2 个答案:

答案 0 :(得分:4)

如果你想获得具有该名称的主题的三元组,你可以做一个简单的描述:

describe ?s where { ?s vcard:fn "Ufficio Bologna 1". }

否则,如果要使用正则表达式,可以稍微修改查询

describe ?s where { ?s vcard:fn ? name. filter (regex(?name, "regex goes here")). }

虽然需要谨慎,但对大型数据集的正则表达式可能很昂贵。许多系统都提供对SPARQL的扩展,它会对您的文字值进行全文索引,然后您可以使用更常规的搜索语法进行搜索。

答案 1 :(得分:3)

我这样解决了:

CONSTRUCT {?s ?p ?o}
        WHERE {
                ?s ?p ?o;
                vcard:fn ?name.
                FILTER regex (?name ,"^ufficio bologna 1$", "i")
                }
相关问题