远程端点上的自定义jena过滤器功能?

时间:2014-07-22 10:21:03

标签: java sparql jena similarity dbpedia

首先,你知道,我没有很长的计算机科学背景,并且今年开始使用网络语义,所以我已经为我可以使用的任何不科学/非科学术语/糟糕的编码风格致歉了在这个问题上。

这是我的任务: 我想找到与我之前从某些文档中提取的某些标签最接近的dbpedia资源。为此,我使用自定义过滤器功能(进行Dice系数计算,返回0到1之间的分数)来计算DBpedia标签和提取的表达式之间的相似性(我使用的是Jena Apache)。

Ex1:提取:“ bea systems ” - >最近的DBpedia标签:“ BAE Systems Inc. ”等。

Ex2:提取:“ harper-collins出版公司” - >最近的DBpedia标签:“ Harper-Collins ”,“ HarperCollins ”,“ HarperCollins Publishers ”等。

我的问题是我需要在DBpdia端点上执行查询,因为数据集很大(内存问题),但我得到一条http 500错误消息,因为我的函数存储在本地,我正在查询远程访问端点...

Exception in thread "main" HttpException: 500
at com.hp.hpl.jena.sparql.engine.http.HttpQuery.rewrap(HttpQuery.java:414)
at com.hp.hpl.jena.sparql.engine.http.HttpQuery.execGet(HttpQuery.java:358)
at com.hp.hpl.jena.sparql.engine.http.HttpQuery.exec(HttpQuery.java:295)
at com.hp.hpl.jena.sparql.engine.http.QueryEngineHTTP.execSelect(QueryEngineHTTP.java:346)
at jena.example.similar.propfunction.DistanceTest.main(DistanceTest.java:48)

这是我的查询代码:

Node exp = NodeFactory.createLiteral("harper-collins publishing company") ;

String queryString = "" +
"PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#> " +
"PREFIX fn: <java:jena.example.similar.propfunction.> " +
"PREFIX dbpedia-owl: <http://dbpedia.org/ontology/> " +
"SELECT  ?company ?label ?funcRes " +
"WHERE {" +
"?company a dbpedia-owl:Company . " +
"?company rdfs:label ?label . " +
"BIND (fn:DiceCoeff(?label, "+exp+") as ?funcRes) " +
"FILTER (lang(?label) = \"en\")" +
"}" +
"ORDER BY DESC(?funcRes) " +
"LIMIT 10 " ;

Query query = QueryFactory.create(queryString) ;

// execute the query
QueryExecution qexec = QueryExecutionFactory.sparqlService("http://dbpedia.org/sparql", query);
try {
    ResultSet results = qexec.execSelect() ;
    ResultSetFormatter.out(System.out, results, query) ;
} finally { qexec.close() ; }

我使用的过滤器功能工作正常,我在本地访问的另一个较小的数据集(不是DBpdia)上使用相同类型的查询(即使用BIND和ORDER BY)测试它,它给了我预期的结果

那么,有没有办法在远程端点上使用自定义过滤功能或根本不使用?否则,我正在做的任务的其他选项是什么? (我已经阅读了How I can write SPARQL query that uses similarity measures in Java Code中的讨论,但它似乎对我来说不是最好的)

我希望社区提出任何建议:)

1 个答案:

答案 0 :(得分:1)

自定义功能仅在本地注册并可用。除非远程服务也理解该功能,否则它将无法对远程服务产生如您所见的错误或返回自定义函数的未绑定值。

您可以尝试使用SERVICE子句将部分查询指向DBPedia并在本地运行自定义过滤器功能。这可能不会很好,但允许您使用自定义过滤功能,例如

PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX fn: <java:jena.example.similar.propfunction.
PREFIX dbpedia-owl: <http://dbpedia.org/ontology/>
SELECT  ?company ?label ?funcRes
WHERE 
{
  SERVICE <http://dbpedia.org/sparql>
  {
    ?company a dbpedia-owl:Company . 
    ?company rdfs:label ?label .
    FILTER (lang(?x) = "en")
  }
  BIND (fn:DiceCoeff(?x, "exp") as ?funcRes)
}
ORDER BY DESC(?funcRes)
LIMIT 10

此查询可以在本地运行,它首先远程查询DBPedia以查找公司列表,然后在本地计算自定义函数,最后使用计算值进行排序。

然后,您需要修改代码,以便针对本地数据集运行查询,例如

QueryExecution qexec = QueryExecutionFactory.create(query, DatasetFactory.createMem());

另一个替代方案,如果这对您来说不够高效,则下载DBPedia数据转储并加载到本地TDB数据库,以便您完全在本地运行查询。有关如何执行此操作的一些信息,请参阅Load DBpedia locally using Jena TDB?