Question

我有一个来自网络的大表，通过请求访问并使用BeautifulSoup解析。部分内容如下：

<table>
<tbody>
<tr>
<td>265</td>
<td> <a href="/j/jones03.shtml">Jones</a>Blue</td>
<td>29</td>
</tr>
<tr >
<td>266</td>
<td> <a href="/s/smith01.shtml">Smith</a></td>
<td>34</td>
</tr>
</tbody>
</table>

当我使用pd.read_html(tbl)将其转换为pandas时，输出如下：

    0    1          2
 0  265  JonesBlue  29
 1  266  Smith      34

我需要将信息保存在<A HREF ... >标记中，因为唯一标识符存储在链接中。也就是说，表格应如下所示：

    0    1        2
 0  265  jones03  29
 1  266  smith01  34

我可以使用其他各种输出（例如，jones03 Jones会更有帮助），但唯一ID很重要。

其他单元格中也有html标签，一般情况下我不希望保存这些标签，但如果这是获取uid的唯一方法，我可以保留这些标签。标签并在以后清理它们，如果必须的话。

是否有一种访问此信息的简单方法？

Answer 1

您可以像这样手动解析表格：

import BeautifulSoup
import pandas as pd

TABLE = """<table>
<tbody>
<tr>
<td>265</td>
<td <a href="/j/jones03.shtml">Jones</a>Blue</td>
<td >29</td>
</tr>
<tr >
<td>266</td>
<td <a href="/s/smith01.shtml">Smith</a></td>
<td>34</td>
</tr>
</tbody>
</table>"""

table = BeautifulSoup.BeautifulSoup(TABLE)
records = []
for tr in table.findAll("tr"):
    trs = tr.findAll("td")
    record = []
    record.append(trs[0].text)
    record.append(trs[1].a["href"])
    record.append(trs[2].text)
    records.append(record)

df = pd.DataFrame(data=records)
df

给你

     0                 1   2
0  265  /j/jones03.shtml  29
1  266  /s/smith01.shtml  34

Answer 2

由于此解析作业需要提取文本和属性价值，它不能通过诸如此类的功能完全“开箱即用” pd.read_html。其中一些必须手工完成。

使用lxml，您可以使用XPath提取属性值：

import lxml.html as LH
import pandas as pd

content = '''
<table>
<tbody>
<tr>
<td>265</td>
<td> <a href="/j/jones03.shtml">Jones</a>Blue</td>
<td >29</td>
</tr>
<tr >
<td>266</td>
<td> <a href="/s/smith01.shtml">Smith</a></td>
<td>34</td>
</tr>
</tbody>
</table>'''

table = LH.fromstring(content)
for df in pd.read_html(content):
    df['refname'] = table.xpath('//tr/td/a/@href')
    df['refname'] = df['refname'].str.extract(r'([^./]+)[.]')
    print(df)

产量

     0          1   2  refname
0  265  JonesBlue  29  jones03
1  266      Smith  34  smith01

上述内容可能很有用，因为它只需要几个额外的代码行，用于添加refname列。

但LH.fromstring和pd.read_html都解析了HTML。因此，通过删除pd.read_html和，可以提高效率使用LH.fromstring解析表格一次：

table = LH.fromstring(content)
# extract the text from `<td>` tags
data = [[elt.text_content() for elt in tr.xpath('td')] 
        for tr in table.xpath('//tr')]
df = pd.DataFrame(data, columns=['id', 'name', 'val'])
for col in ('id', 'val'):
    df[col] = df[col].astype(int)
# extract the href attribute values
df['refname'] = table.xpath('//tr/td/a/@href')
df['refname'] = df['refname'].str.extract(r'([^./]+)[.]')
print(df)

产量

    id        name  val  refname
0  265   JonesBlue   29  jones03
1  266       Smith   34  smith01

Answer 3

您可以使用正则表达式首先修改文本并删除html标记：

import re, pandas as pd
tbl = """<table>
<tbody>
<tr>
<td>265</td>
<td> <a href="/j/jones03.shtml">Jones</a>Blue</td>
<td>29</td>
</tr>
<tr >
<td>266</td>
<td> <a href="/s/smith01.shtml">Smith</a></td>
<td>34</td>
</tr>
</tbody>
</table>"""
tbl = re.sub('<a.*?href="(.*?)">(.*?)</a>', '\\1 \\2', tbl)
pd.read_html(tbl)

给你

[     0                           1   2
 0  265  /j/jones03.shtml JonesBlue  29
 1  266      /s/smith01.shtml Smith  34]

HTML表到pandas表：html标签内的信息

3 个答案: