从网页解析纯文本

时间:2013-05-21 16:10:53

标签: android parsing

这是我第一次在这个论坛上提问,所以希望每个人都不要太严格。   本学期我一直在做项目,我 决定制作能够解析网站文章(不是一个,但很多)的android应用程序,并将其保存在文本文件或SQLite数据库中 即可。我已经这样做已经5个月了,我真的不知道如何从网页上获得特定的纯文本,而不会与特定的文章内容无关,例如添加等。 通过这个论坛,我发现了如何使用Jsoup从一个网站解析数据(我在我的项目中使用了一个)。我认为它也可能适用于多个网站,但 因为许多网站使用不同的html标签来表示某些文章的内容,我找不到任何可以使用的常用参数 < / strong>即可。  我不确定,但我想我在这个论坛上看到有人说这种事情是不可能的,但接下来我们如何解释像 Pocket(Former Read it Later)这样的应用程序的存在, Instapaper 等。这些应用程序正在做我最想要的应用程序。  那么有人可以就我能做些什么做出任何建议吗?感谢。

1 个答案:

答案 0 :(得分:0)

我不确定它是否会显示整个故事,但这里是代码:

doc = Jsoup.connect(“http://”+ URLField.getText()。toString()+“”)。get();

                // get page title
                title = doc.title();
                doc = new Cleaner(Whitelist.none()).clean(doc);

这里我只是使用Jsoup库及其Cleaner类,但我得到了很多我不想出现的文本。我想发布图片以明确(我想要的),但这个论坛不允许我这样做。