Pandas read_html缺少一些表格

时间:2017-10-02 20:46:17

标签: python python-3.x pandas

我正在使用pandas read_html查找特定网页中的所有表格;但是,这个过程似乎缺少了一些表格。

以下是网页:https://www.uspto.gov/web/offices/ac/ido/oeip/taf/mclsstc/mcls1.htm

这是我的简单例子:

.then()

此过程找到17个表中的9个。如何使用此方法查找所有表?

注意:如果我在其他地理区域的页面上尝试此操作,我也遇到同样的问题。

1 个答案:

答案 0 :(得分:0)

似乎pd.read_html函数无法找到所有表标记。 我建议您使用BeautifulSoupurllib2个包来完成此任务。您可以通过pip install <package_name>安装它。

import urllib2
from bs4 import BeautifulSoup

html_text = urllib2.urlopen("https://www.uspto.gov/web/offices/ac/ido/oeip/taf/mclsstc/mcls1.htm")
bs_obj = BeautifulSoup(html_text)
tables = bs_obj.findAll('table')
dfs = list()
for table in tables:
    df = pd.read_html(str(table))[0]
    dfs.append(df)

结果,您在dfs列表中拥有所有表(在DataFrame类型中)。