使用java将非结构化数据(文本)转换为结构化格式

时间:2014-11-09 01:58:00

标签: solr web-crawler search-engine nutch information-retrieval

我已经做了很多关于此的研究并阅读了几篇论文,检查了所有的SO Q& A's但我仍然不清楚。

        I'm trying to setup a small search engine. I am crawling data using nutch and 
        have integrated it with solr for front end and indexing.

        After crawl, I have unstructured data i.e content of entire page I crawled and 
        I need to structure this data into sets.

例如:我抓取了一个页面,其中包含有关任何产品的信息,我有原始文本,其中包含产品说明,尺寸,尺寸等。

我的目标:提取我想说的关键字:维度 - >存储在DB列中 提取与维度相关的信息 - >存储在同一行(另一列)

所以,我在一个表中有关键字和描述,我根据查询获取并输出给用户。

我不确定如何去构建/获取我需要的信息,如果可能的话,我希望使用java来做到这一点。我读了几篇文章,但我不能跟随。任何帮助/指导将不胜感激。

如果您需要更多信息,请告诉我。感谢您的时间和帮助

2 个答案:

答案 0 :(得分:2)

你可以使用像GATE(https://gate.ac.uk/),Apache OpenNLP(https://opennlp.apache.org/),Minorthird(http://sourceforge.net/projects/minorthird/)等nlp工具。

您可以在GATE中编写jape语法,根据文本中的单词创建注释。例如,您可以将dimension, measurements, proportions等注释为dimension,然后在下一句中查找数字。

您可以在此处查看其他nlp工具:https://www.quora.com/What-are-the-best-Java-open-source-NLP-toolkits

答案 1 :(得分:0)

试试CogComp-NLP:http://deagol.cs.illinois.edu:8080/

它在Java中可用,带有Python api。