如何从登录用户的URL解析HTML

时间:2016-04-19 18:59:48

标签: html parsing html-parsing jsoup

假设我已登录youtube。 我会看到特定于已登录用户帐户的视频。

所以,我想解析youtbe页面的html,以便在浏览器中获取当前登录用户的所有视频ID。

我尝试了 Jsoup ,但它解析了网页的HTML,就像没有用户登录一样。

希望你得到我的疑问...... !!! 可能是什么解决方案?

1 个答案:

答案 0 :(得分:1)

  

我尝试了Jsoup,但它解析了页面的HTML,就像没有用户登录一样。

你必须告诉Jsoup登录Youtube。更重要的是,您必须存储Youtube提供的最终cookie,并将其重新用于任何Web请求。

登录后,Jsoup将能够解析youtube页面的html,以获取当前登录用户的所有视频ID。

这是一篇描述how to login to any website with Jsoup的有趣文章。本文附带了一个登录Github的例子。

但是,我在这里写下整个过程。阅读文章了解详情。

你需要什么?

  • 启用了开发者工具的浏览器
  • 登录过程开始时使用的表单数据
  • 所需的Cookie

您如何处理?

  • 打开隐私浏览窗口 此窗口确保您没有设置任何Cookie。

  • 启动开发人员工具栏 工具栏为您提供登录表单详细信息以及整个登录过程中浏览器与Youtube之间的交换。

  • 告诉您的浏览器导航到Youtube登录页面 此步骤将允许您确定登录过程的第一步。

  • 手动登录并查看浏览器的功能 此步骤允许您识别登录交换(http标头,Cookie等)

  • 让Jsoup复制浏览器执行的操作 让Jsoup执行相同的浏览器操作(发送标头,存储Cookie,跟踪重定向等)。

另见: