域名匹配算法

时间:2013-04-05 07:24:09

标签: algorithm match

我有一个公司列表,并希望匹配使用谷歌搜索获取的域名,以确定哪些域名可能属于同一家公司。是否存在可用于此用例的现有算法(法律上也允许在商业项目中使用)。

e.g。我有互联网电影数据库作为公司名称,并说google返回结果,其中有效的可能是internetmoviedatabase,internet-movie-database,the-internet-movie-database,theinternetmoviedatabase,internetmovies,internet-movies,imd,imdb 。(注意:我已从列表中排除TLD以使问题更简单)

1 个答案:

答案 0 :(得分:1)

听起来你正在寻找一个近似的字符串匹配算法。 不确定您是在寻找算法还是实现。

这里已经有一个问题: String matching algorithm

一种可能的解决方案是使用Levenshtein距离:http://en.wikipedia.org/wiki/Levenshtein_distance

如果您正在寻找实现,如果您谷歌“近似字符串匹配C ++”,这是第一个结果: http://www.chokkan.org/software/simstring/

祝你好运!

相关问题