data-mining - 什么是车辆搜索的最佳数据挖掘方法？

时间：2009-04-23 17:46:53

标签： data-mining site-mining

我正在尝试建立一个搜索引擎，通过在线车辆分类，如Oodle，eBay马达和craigslist。我还有一个关于它们的标准车辆名称和规格的大型数据库。我想做的是通过分类网站找到的每条记录，能够准确确定哪种车型，风格（来自我的数据库）。例如，我的数据库中福特卡车的标准名称是： 2003福特F150。

然而，在分类网站上，人们可能会提到：“2003 Ford F 150”或“2003 Ford f-150”或“03 Ford truck 150”。是否有一种有效的数据挖掘/文本分类算法能够将这些文本标准化为上述标准名称？

答案 0 :(得分：1)

您可以使用Levenshtein distance将找到的字符串与数据库记录进行匹配。

另一个（可能更好）的想法是将字符串标记化并使用term vector model作为车辆名称。这样您就可以使用余弦相似性来查找相关匹配。

答案 1 :(得分：0)

如果你要开发一个整体搜索引擎，旨在扩大使用和规模，你需要一些强大的东西来支持你的查询。

如果你要使用编辑距离，Bed-trees为你的索引结构提供了一个很好的选择。另一种好的方法是使用Levenshtein automata，具体取决于数据集的大小。 Levenshtein automatas也非常擅长提供自动完成功能，您可能需要自开发搜索引擎。

编辑距离的另一种方法是使用n-gram与Jaccard索引相结合。对于这种方法，您可以使用Minhash + LSH。此外，您可以使用Jaccard作为考虑三角不等式的距离度量（1 - Jaccard索引），因此可以在度量树中使用，例如VP-tree。

其中一种方法肯定会对您有所帮助。