Html 2文本 - 删除“隐藏”文本

时间:2011-03-09 13:23:35

标签: java html

我目前正在寻找方法来阅读网站的可见文本并使用Java将其存储为纯文本字符串。

换句话说,我想转换这样的东西:

Hello <span style="display: none">stupid</span> World进入“Hello World”

或类似

<span>Un</span>friendly进入“不友好”(而不是“非友好”)

Hello

World

进入“Hello World”(因为HTML中忽略了新行)

你知道任何能够协助完成这项任务的lib吗?

干杯,

的Matthias

2 个答案:

答案 0 :(得分:4)

Boilerpipe是一个用Java编写的HTML清理库。

答案 1 :(得分:0)

查看Cobra以查看API是否提供了呈现HTML并将其转换为纯文本的任何方法。