machine-learning - 从自然语言文本中提取数据

时间：2012-08-15 01:21:53

标签： machine-learning nlp

我有一套文字报纸广告，我想提取出售物品及其价格等信息。这些广告不遵循任何结构化格式。我可以访问数千个这样的广告。

我应该从哪里开始这个项目？是否有一些图书馆可以提供帮助？

由于

答案 0 :(得分：3)

最简单的方法似乎是使用规则和词典。例如，您可以使用简单的正则表解析价格并使用大型项目字典进行检索。

答案 1 :(得分：0)

根据您的编码经验，以及根据文本文件的格式设置，一种方法是将它们导入Excel并使用Text to Columns函数以某种方式将广告的字段拆分为单独的单元格。

例如，如果你有名称：黑车和价格：$ 1000.00 ，那么Excel可以使用文本到列功能设置为在冒号上拆分来轻松拆分它们。 / p>

也许更详细地解释文本文件是如何格式化的。

答案 2 :(得分：0)

如果您不熟悉此概念，可以尝试查看videos的IBM Big Insight Text Analytics。他们的项目正在提取有关IBM股票的价格信息，类似于您的项目。他们从这个项目开始，一系列视频几乎完成了它。在此过程中，他们更多地讲授正则表达式。

请注意，此视频可帮助您了解此类项目的工作流程。如果你精通任何具有良好正则表达式支持的编程语言，perl，ruby，python，groovy ...你可以轻松地重复他们的实验。

此外，我从未使用过此产品，但观看了所有这些视频，希望能够更多地了解文本挖掘。我再说一遍，如果没有这个产品，你可以做到这一切，但当然不那么容易。