Python3-BeautifulSoup-获取两个标签之间的值,其中

时间:2019-06-24 12:28:55

标签: python python-3.x beautifulsoup

我下面有pdftotext使用-bbox-layout选项生成的HTML块:

<flow>
<block xMin="21.600000" yMin="86.356000" xMax="178.647000" yMax="116.233001">
    <line xMin="21.600000" yMin="86.356000" xMax="178.647000" yMax="101.833000">
        <word xMin="21.600000" yMin="86.356000" xMax="178.647000" yMax="101.833000">
            My text string located here!</word>
    </line>

</block>
</flow>

[...]
<flow>
<block xMin="223.560000" yMin="323.675000" xMax="345.563500" yMax="339.855500">
    <line xMin="223.560000" yMin="323.675000" xMax="345.563500" yMax="339.855500">
        <word xMin="223.560000" yMin="323.675000" xMax="316.836500" yMax="339.855500">Another string
        </word>
        <word xMin="320.022000" yMin="323.675000" xMax="345.563500" yMax="339.855500">And another!</word>
    </line>
</block>
</flow>

现在,我正在尝试动态解析上述结构,并获取每个<block>[...]</block>内容,其中值xMinxMax在两个数字之间。

想象一下我有以下数字:

areas[0] = (100, 0, 200, 792)
areas[1] = (200, 0, 612, 792)

with open(path_to_html_document) as html_file:
    parsed_html = BeautifulSoup(html_file)
    for (i, area) in enumerate(areas):

        xMinValue, xMaxValue = areas[i][0], areas[i][2]

        block_tags = parsed_html.find_all(
            "block", attrs={"xMin": xMinValue, "xMax": xMaxValue})

        print(block_tags)

以上代码不返回任何内容,因为没有匹配的标签。 find_all()搜索具有特定编号的block标签的完全匹配-但我正在尝试搜索block标签,其中xMin和xMax为:

areas[0] is between 100 and 200

areas[1] is between 200 and 612

BeautifulSoup可以做到吗?

3 个答案:

答案 0 :(得分:1)

替换您的代码:

block_tags = parsed_html.find_all(
            "block", attrs={"xMin": xMinValue, "xMax": xMaxValue})
print(block_tags)

收件人:

block_tags = parsed_html.find_all("block")

for block in block_tags:
    if float(block['xmin']) >= xMinValue and  float(block['xmax']) <= xMinValue:
        print(block)

如果调试html代码print(parsed_html),您将看到html block所有属性都以小写字母表示。

答案 1 :(得分:0)

尝试

parsed_html.select("block")

并使用键“ xMin”和“ xMax”过滤结果。

例如,如果您想获取<block xMin="1" xMax="2"></block>,则可以先获取所有block标签,

all_blocks = parsed_html.select("block")

您想获得block为1且xMin为2的xMax之一,可以这样:

target = filter(lambda x: x["xMin"] == "1" and x["xMax"] == 2, all_blocks)

答案 2 :(得分:0)

您可以选择具有属性<block>的{​​{1}}和具有CSS选择器xMin的{​​{1}}。然后通过列表理解进行过滤:

xMax

打印:

block[xMin][xMax]