Question

我正在使用pandas read_html查找特定网页中的所有表格;但是，这个过程似乎缺少了一些表格。

以下是网页：https://www.uspto.gov/web/offices/ac/ido/oeip/taf/mclsstc/mcls1.htm

这是我的简单例子：

.then()

此过程找到17个表中的9个。如何使用此方法查找所有表？

注意：如果我在其他地理区域的页面上尝试此操作，我也遇到同样的问题。

Answer 1

似乎pd.read_html函数无法找到所有表标记。我建议您使用BeautifulSoup和urllib2个包来完成此任务。您可以通过pip install <package_name>安装它。

import urllib2
from bs4 import BeautifulSoup

html_text = urllib2.urlopen("https://www.uspto.gov/web/offices/ac/ido/oeip/taf/mclsstc/mcls1.htm")
bs_obj = BeautifulSoup(html_text)
tables = bs_obj.findAll('table')
dfs = list()
for table in tables:
    df = pd.read_html(str(table))[0]
    dfs.append(df)

结果，您在dfs列表中拥有所有表（在DataFrame类型中）。

Pandas read_html缺少一些表格

1 个答案: