在标签之间提取数据

时间:2017-02-14 14:18:52

标签: python python-3.x web-scraping beautifulsoup

我必须从许多像http://www.firmenmonitor.at/Secure/CompanyDetail.aspx?CID=408053&SID=4af735f7-4eb7-4f8e-a1df-948f6fb66a18&PID=1

这样的网站中提取数据

我对第二个'textModule' div感兴趣。有三个部分:

In der Rolle Aufsichtsrat waren oder sind gemeldet:
(...)
In der Rolle Geschäftsführer waren oder sind gemeldet:
(...)
In der Rolle Gesellschafter waren oder sind gemeldet:
(...)

我知道如何提取姓名和其他信息,但我想知道每个成员所属的部分。例如:

Köhlmeier Harald - Aufsichtsrat
Mazzel Josef - Aufsichtsrat
(...)
Konstatzky Adolf F. - Geschäftsführer

我的问题是这个div结构非常扁平,每个部分的标题只有<h3>。所以我不知道如何弄清楚一个部分的完成位置和另一个部分的开始。我无法向你展示我迄今为止所尝试的内容,因为我不知道如何处理它...任何提示?

1 个答案:

答案 0 :(得分:1)

如果我正确地理解了您的问题,您只是想找到一种方法来分割这三个部分,这样您就可以独立处理每个部分并提取数据,并了解它所属的部分。

在这种情况下,您可以利用确切的字符串<h3分隔各个部分的事实。您可以简单地提取第二个div,将其保存为名为eg的字符串。 second_div并执行second_div.split("<h3")以获取列表对象,其中第1项,第2项和第3项(不是0)在单独的部分中包含html代码。

相关问题