从需要身份验证的网站获取数据

时间:2017-01-19 18:41:40

标签: powerbi powerbi-datasource

在PowerBI中,我想从需要身份验证的网站(http://kdp.amazon.com/)获取数据。去New Source,Web,Advanced,并没有向我展示任何看起来很有前途的东西。希望我能错过一些东西。

我的理想是访问特定网页(发布身份验证),然后点击允许我下载Excel电子表格的链接。

感谢您的任何想法/指示。

3 个答案:

答案 0 :(得分:1)

这取决于你的情况可能性很小。

如果它是数据或文件所在位置的直接URL(例如,数据位于页面,文件链接,Web API端点),则取决于网站使用何种身份验证方法,以及是否可以通过Web.Contents选项提供凭据。 (通常用于Web API身份验证)

如果需要进一步导航(例如点击,输入信息)以在验证后访问数据/文件,则答案为否。

答案 1 :(得分:1)

可以使用无头浏览器和脚本/宏引擎来完成这种类型的数据抓取。

例如xvfb(X虚拟帧缓冲区)+ firefox + iMacros。我确实认为这超出了power bi的能力。如果你想进一步追求这里有一些参考:

https://en.wikipedia.org/wiki/Xvfb

https://addons.mozilla.org/en-us/firefox/addon/imacros-for-firefox/

再次,类似但使用备用工具集:

http://scraping.pro/use-headless-firefox-scraping-linux/

BTW,之前已经做过一两次 - 这不是一个很好的价值主张。如果你不得不诉诸这种策略,可能是时候考虑为什么开发人员没有在API中向你公开这个功能 - 也许有充分的理由?

答案 2 :(得分:1)

  

我的理想是访问特定网页(发布身份验证),然后点击允许我下载Excel电子表格的链接。

这是Web宏录制器的典型用例。他们会在网站上记录您的表单填写,点击和下载,然后可以重播。好的是:

如果您不需要录制并熟悉CSS选择器和XPath来手动创建自动化脚本,那么请查看类似

的工具
  • Selenium WebDriver
  • PhantomJS