Question

我必须从许多像http://www.firmenmonitor.at/Secure/CompanyDetail.aspx?CID=408053&SID=4af735f7-4eb7-4f8e-a1df-948f6fb66a18&PID=1

这样的网站中提取数据

我对第二个'textModule' div感兴趣。有三个部分：

In der Rolle Aufsichtsrat waren oder sind gemeldet:
(...)
In der Rolle Geschäftsführer waren oder sind gemeldet:
(...)
In der Rolle Gesellschafter waren oder sind gemeldet:
(...)

我知道如何提取姓名和其他信息，但我想知道每个成员所属的部分。例如：

Köhlmeier Harald - Aufsichtsrat
Mazzel Josef - Aufsichtsrat
(...)
Konstatzky Adolf F. - Geschäftsführer

我的问题是这个div结构非常扁平，每个部分的标题只有<h3>。所以我不知道如何弄清楚一个部分的完成位置和另一个部分的开始。我无法向你展示我迄今为止所尝试的内容，因为我不知道如何处理它...任何提示？

Answer 1

如果我正确地理解了您的问题，您只是想找到一种方法来分割这三个部分，这样您就可以独立处理每个部分并提取数据，并了解它所属的部分。

在这种情况下，您可以利用确切的字符串<h3分隔各个部分的事实。您可以简单地提取第二个div，将其保存为名为eg的字符串。 second_div并执行second_div.split("<h3")以获取列表对象，其中第1项，第2项和第3项（不是0）在单独的部分中包含html代码。

在标签之间提取数据

1 个答案: