Jsoup正在返回我在HTML文档中看不到的文本

时间:2016-06-01 08:43:01

标签: java html jsoup

public class Test {
   public static void main(String[] args) throws IOException {
     Document doc = Jsoup.connect("https://bs.to/Game-of-Thrones").get();
     Elements link = doc.select("p");

     System.out.println(link.text());
   }
}

这是我用来获取给定网站的唯一p标签元素的代码。 但我得到一个文本,这不在HTML文档中。它似乎是属于一般网站的文本(它是德语的,所以我不介意发布结果文本)。

另外,如果我循环所有p元素,我会得到更多文本,不应该在文档中,而不是我正在寻找的文本。

为什么会这样?提前谢谢!

编辑:

  Document doc = Jsoup.connect("https://bs.to/andere-serien")
                  .userAgent("Mozilla/5.0 (Windows; U; WindowsNT 5.1; en-US;    rv1.8.1.6) Gecko/20070725 Firefox/2.0.0.6")
                  .referrer("http://www.google.com")
                  .get();

添加userAgent确实解决了这个问题,谢谢Sean Patrick Floyd!

1 个答案:

答案 0 :(得分:0)

可能是他们为不同的用户代理提供不同的内容。尝试将您的用户代理设置为真实浏览器的用户代理。

请参阅此问题寻求解决方案:
JSoup UserAgent, how to set it right?

相关问题