从不同的HTML表中提取数据

时间:2012-10-30 11:31:55

标签: python html html-table

我正试图从Edgar数据库(http://www.sec.gov/edgar/searchedgar/companysearch.html)的8-K表格中的收益表中提取数据。以下是一些例子:

Apple

Alcoa

我想要的表格被称为“运营声明”或“收入报表”或类似表格。我尝试提取所有数据(如净销售额,营业收入等),并根据日期和时间间隔(三个月,六个月等)将其放入词典中。问题是表结构的多样性 - 有很多方法可以构建这样的数据。我创建了一个使用Beautiful Soup解析表的脚本,但它变得越来越复杂。我想知道是否有任何方法可以立即获得它(具有所有复杂性)而无需大量编码?我尝试使用Excel和Google Docs自动获取数据,但在这种情况下它们表现不佳。有什么建议? 谢谢你的帮助

0 个答案:

没有答案
相关问题