Question

这是我第一次在这个论坛上提问，所以希望每个人都不要太严格。本学期我一直在做项目，我 决定制作能够解析网站文章（不是一个，但很多）的android应用程序，并将其保存在文本文件或SQLite数据库中 即可。我已经这样做已经5个月了，我真的不知道如何从网页上获得特定的纯文本，而不会与特定的文章内容无关，例如添加等。通过这个论坛，我发现了如何使用Jsoup从一个网站解析数据（我在我的项目中使用了一个）。我认为它也可能适用于多个网站，但 因为许多网站使用不同的html标签来表示某些文章的内容，我找不到任何可以使用的常用参数 < / strong>即可。我不确定，但我想我在这个论坛上看到有人说这种事情是不可能的，但接下来我们如何解释像 Pocket（Former Read it Later）这样的应用程序的存在， Instapaper 等。这些应用程序正在做我最想要的应用程序。那么有人可以就我能做些什么做出任何建议吗？感谢。

Answer 1

我不确定它是否会显示整个故事，但这里是代码：

doc = Jsoup.connect（“http：//”+ URLField.getText（）。toString（）+“”）。get（）;

                // get page title
                title = doc.title();
                doc = new Cleaner(Whitelist.none()).clean(doc);

这里我只是使用Jsoup库及其Cleaner类，但我得到了很多我不想出现的文本。我想发布图片以明确（我想要的），但这个论坛不允许我这样做。

从网页解析纯文本

1 个答案: