使用C从HTML文档中提取信息

时间:2012-06-18 14:44:54

标签: c html-parsing

在我学习C(简单C,不是C#,也不是C ++。我有我的理由。)中,我遇到了从URL中提取HTML文档的一些信息的需求。也就是说,我想要来自链接中的所有href属性,这些属性位于页面上的某个无序列表中,位于字符串数组中。这些URL指向我要下载的图像并存储在zip文件中。

现在,我问了一些我认识的人,他们擅长C,他们要么告诉我“C是错误的工具”,要么指向libXML,这显然是因为它的稀缺文档而闻名。我也看了libsoup和libtidy,但我似乎无法将这些碎片缝合在一起。

我应该选择哪种方法/库?有谁知道我可以看到的一些示例代码?

编辑:看到有一半的评论告诉我使用C以外的东西,我会补充一点,我不是在寻找“正确的工具”。我可能会使用Ruby,如果我只想尽快完成它,只是因为我对它感到满意。这是我学习C的一部分,因此,我正在寻找纯粹的C解决方案。

1 个答案:

答案 0 :(得分:0)

因为你正在学习C,所以我会使用标准库和。

http://www.cplusplus.com/reference/clibrary/cstdio/ http://www.cplusplus.com/reference/clibrary/cstring/

最简单的方法是使用其他东西来获取页面,将其写入本地文件,然后将文件名传递给您的程序。将输出打印到STDOUT。