使用WebClient和浏览器在DBPedia中产生不同的结果

时间:2013-03-15 12:39:36

标签: .net c#-4.0 rdf sparql dbpedia

我想提取DBPedia中存在的一些信息。所以,我用.NET的 System.Net.WebClient 编写了一个应用程序,它获取了url并以 N-Triples 格式(纯文本)返回url的内容。

url(与应用程序)的提取数据的结果是:

<http://dbpedia.org/resource/AfghanistanCommunications> <http://dbpedia.org/ontology/wikiPageRedirects> <http://dbpedia.org/resource/Communications_in_Afghanistan> . <http://dbpedia.org/resource/AfghanistanCommunications>   <http://www.w3.org/ns/prov#wasDerivedFrom>  <http://en.wikipedia.org/wiki/AfghanistanCommunications?oldid=74466499> . <http://dbpedia.org/resource/AfghanistanCommunications>   <http://xmlns.com/foaf/0.1/isPrimaryTopicOf>    <http://en.wikipedia.org/wiki/AfghanistanCommunications> . <http://dbpedia.org/resource/AfghanistanCommunications>  <http://www.w3.org/2000/01/rdf-schema#label>    "AfghanistanCommunications"@en .

但是,当我在浏览器中看到the url时,我得到的内容与我提取的内容截然不同。

我用Fiddler检查了请求然后:

  

webClient.Headers.Add(HttpRequestHeader.UserAgent,“Mozilla / 4.0(兼容; MSIE 6.0; Windows NT 5.2; .NET CLR 1.0.3705;)”);

DBPedia是否将应用程序检测为机器人,并且返回的数据少于真实浏览器,或者我错过了其他内容?!

1 个答案:

答案 0 :(得分:1)

您的申请当然要求:

http://dbpedia.org/data/AfghanistanCommunications.ntriples

但您的Web浏览器显示的是:

http://dbpedia.org/data/Communications_in_Afghanistan.ntriples

如果是您的网络浏览器,如果您转到http://dbpedia.org/resource/AfghanistanCommunicationshttp://dbpedia.org/page/AfghanistanCommunications,系统会将您重定向到http://dbpedia.org/page/Communications_in_Afghanistan,除非要求提供特定格式。重定向的原因是维基百科具有从http://en.wikipedia.org/wiki/AfghanistanCommunicationshttp://en.wikipedia.org/wiki/Communications_in_Afghanistan的重定向。您可以在应用程序中看到三元组:

<http://dbpedia.org/ontology/wikiPageRedirects>