c - 使用C从HTML文档中提取信息

在我学习C（简单C，不是C＃，也不是C ++。我有我的理由。）中，我遇到了从URL中提取HTML文档的一些信息的需求。也就是说，我想要来自链接中的所有href属性，这些属性位于页面上的某个无序列表中，位于字符串数组中。这些URL指向我要下载的图像并存储在zip文件中。

现在，我问了一些我认识的人，他们擅长C，他们要么告诉我“C是错误的工具”，要么指向libXML，这显然是因为它的稀缺文档而闻名。我也看了libsoup和libtidy，但我似乎无法将这些碎片缝合在一起。

我应该选择哪种方法/库？有谁知道我可以看到的一些示例代码？

编辑：看到有一半的评论告诉我使用C以外的东西，我会补充一点，我不是在寻找“正确的工具”。我可能会使用Ruby，如果我只想尽快完成它，只是因为我对它感到满意。这是我学习C的一部分，因此，我正在寻找纯粹的C解决方案。