基于列名称的Python Scraping HTML表

时间:2018-09-15 22:29:53

标签: python html web-scraping

我不确定我是否在正确的道路上回答这个问题,但是我找不到任何资源来帮助我。

我已经开发了一个刮板的开始,它遍历了链接列表(https://bulbapedia.bulbagarden.net/wiki/Category:Trainer_classes)并进入了每个培训班的页面。我想在每个培训班的页面上抓取某些表格的内容。我遇到的问题是构建足够动态的代码,以处理我正在浏览的所有链接。

XPath并不是真正的选择,因为页面上的所有表(包括我不想要的表)都具有这样的Xpath:

//*[@id="mw-content-text"]/table[6]
//*[@id="mw-content-text"]/table[7]
//*[@id="mw-content-text"]/table[4]
//*[@id="mw-content-text"]/table[3]

我想要的表没有一致的表号。所以,实际上我的问题变成了...

如何刮擦所有列名为TrainerName / Battle / Winnings / Pokemon的表?我找不到能使我根据其标签的文本内容刮擦表格的资源吗?

这是我要抓取的页面示例:

https://bulbapedia.bulbagarden.net/wiki/Ace_Duo_(Trainer_class)

也许我以错误的方式来解决问题,但这是我能想到的最好的主意。谢谢您的时间和协助。

0 个答案:

没有答案