从纯文本中提取结构化数据

时间:2012-01-05 16:28:02

标签: java string json parsing structured-data

在输入上我有一个纯文本(在我的情况下通常是HTML)和一个“语法规范”(某种方式用于从纯文本提取数据到结构化数据),然后在输出上我需要有一些结构化数据(JSON很好,但也许存在更好的东西?)

这个任务有没有库?指定“语法规范”有哪些好方法? 解决此类问题的最佳方法是什么?

5 个答案:

答案 0 :(得分:2)

基于语法转换的一些工具:

增加:

答案 1 :(得分:0)

查看jsoup的HTML解析和gson的Java-to-JSON。

答案 2 :(得分:0)

要解析HTML,你需要一个有点宽松的DOM解析器,这取决于使用你的语法规范解析它的html代码的质量,然后你需要提供一个你想要的数据结构类型图书馆为你做那些事情

答案 3 :(得分:0)

查看jilapi

这会接收非结构化的纯文本,并提供结构化的JSON。

答案 4 :(得分:-1)

如果纯文本文件的结构格式正确,为什么不使用Java DOM API(或JDOM)与DOCTYPE结合来创建DOM对象?从那里,您可以使用类似google-gson库的内容迭代该Object并轻松将其转换为JSON。