使用python从弹出页面中提取文本信息

时间:2017-05-13 19:53:17

标签: python web-crawler

是否可以使用python自动从弹出页面中提取文本信息? 我有google play store app链接: https://play.google.com/store/apps/details?id=com.facebook.katana 如果向下滚动到“附加信息”部分,您将找到“权限”。通过单击下面的“查看详细信息”将弹出一个页面。弹出窗口中的那些文本信息是否可提取? 如果可行的话,如何从主页面源获取信息? 非常感谢。

2 个答案:

答案 0 :(得分:1)

您需要执行以下操作:

1)设置一个webdriver来控制网站。

https://sites.google.com/a/chromium.org/chromedriver/getting-started

2)右键单击"查看详细信息"并选择检查源。这将打开页面的源代码。突出显示的部分对应于该按钮。您可以右键单击并复制xpath,并使用它来调用单击函数。

3)打开新页面后,将驱动程序导航到此页面,然后按照步骤2中的相同说明选择所需的文本。然后,您可以使用innerhtml函数从该元素中获取文本。

答案 1 :(得分:0)

这将是相当复杂的:您必须深入了解HTML以找出按钮的作用(链接实际上是button元素)。最好的方法是使用Google Play商店API,该API目前尚不存在。因此,最简单的选择是通过第三方API来为您抓取Play商店。这是一个example

我不会引导您完成整个过程,但您可能必须使用requests模块。