使用PHP cURL从Wikipedia API中提取段落

时间:2010-05-21 06:25:26

标签: php parsing curl mediawiki wikipedia-api

以下是我使用维基百科(MediaWiki)API尝试做的事情 - http://en.wikipedia.org/w/api.php

  1. http://en.wikipedia.org/w/api.php?format=xml&action=opensearch&search=[keyword]上执行GET以检索关键字的建议页面列表

  2. 使用http://en.wikipedia.org/w/api.php?format=json&action=query&export&titles=[page标题上的GET循环浏览每个建议页面

  3. 将网页上的所有段落解压缩为数组

  4. 使用数组

  5. 执行某些

    我坚持#3。我可以在段落之间看到一堆包含“\ n \ n”的JSON数据,但由于某些原因,PHP explode()函数不起作用。

    基本上我只想抓住每个维基百科页面的“肉”(不是标题或任何格式,只是内容),然后将其分段转换为数组。

    有什么想法吗?谢谢!

1 个答案:

答案 0 :(得分:1)

\n\n字面意思是那些字符,而不是换行符。确保在爆炸中使用单个引号:

$parts = explode('\n\n', $text);

如果您选择使用双引号,则必须转义\字符,如下所示:

$parts = explode("\\n\\n", $text);

旁注:为什么要检索两种不同格式的数据?为什么不只使用JSON或仅使用XML?