从HTML字符串中查找和存储值(C ++)

时间:2017-01-06 20:05:48

标签: html c++ search

我有一个程序可以抓取html,特别是来自SEC.gov的季度报告,使用libcurl的WRITEFUNCTION将它们保存在内存中。

我现在想要"通读"报告的HTML ,存储许多(许多)所需的值,基本上是财务表或资产负债表中的任何值。这些将具有识别各种长度的文档中的子串。

以下哪项(如果有)适用:

Boost :: regex - 搜索一组表达式并存储找到它们时找到的下一个值

Libxml ++ (或一些等价物) - 形成一个DOM树并编写一个遍历它的节点的方法,当节点属于某种类型或包含某个字符串时存储数据( "净收入"例如)。

或建议其他一些具有我正在寻找的能力的图书馆或方法论?

0 个答案:

没有答案