从自然语言文本中提取数据

时间:2012-08-15 01:21:53

标签: machine-learning nlp

我有一套文字报纸广告,我想提取出售物品及其价格等信息。这些广告不遵循任何结构化格式。我可以访问数千个这样的广告。

我应该从哪里开始这个项目?是否有一些图书馆可以提供帮助?

由于

3 个答案:

答案 0 :(得分:3)

最简单的方法似乎是使用规则词典。例如,您可以使用简单的正则表解析价格并使用大型项目​​字典进行检索。

答案 1 :(得分:0)

根据您的编码经验,以及根据文本文件的格式设置,一种方法是将它们导入Excel并使用Text to Columns函数以某种方式将广告的字段拆分为单独的单元格。

例如,如果你有名称:黑车价格:$ 1000.00 ,那么Excel可以使用文本到列功能设置为在冒号上拆分来轻松拆分它们。 / p>

也许更详细地解释文本文件是如何格式化的。

答案 2 :(得分:0)

如果您不熟悉此概念,可以尝试查看videosIBM Big Insight Text Analytics。他们的项目正在提取有关IBM股票的价格信息,类似于您的项目。 他们从这个项目开始,一系列视频几乎完成了它。 在此过程中,他们更多地讲授正则表达式。

请注意,此视频可帮助您了解此类项目的工作流程。如果你精通任何具有良好正则表达式支持的编程语言,perl,ruby,python,groovy ...你可以轻松地重复他们的实验。

此外,我从未使用过此产品,但观看了所有这些视频,希望能够更多地了解文本挖掘。 我再说一遍,如果没有这个产品,你可以做到这一切,但当然不那么容易。