如何从mssql表中识别包含类似文本的记录

时间:2015-03-20 08:22:19

标签: java sql-server

我有一个包含多个记录的表格,这些记录包含不同或相似或部分相似的文本。

例如:

记录1:堆栈溢出论坛非常有用。这最有助于开发人员和研究人员。 记录2:有几个非常有用的论坛可以帮助开发人员和研究人员。

记录3:这个堆栈溢出论坛非常有用。这最有助于开发人员和研究人员。 记录4:不应考虑此文本。

考虑记录1和记录3,两者都是相同的,并且它被标记为重复,因为我正在为记录生成哈希码。

记录4包含完全不同的文字。

看看记录1和记录2,两者大致相似,含有几乎相似的词语。

比较两个记录时这两个记录中相似词的百分比更高。

所以我需要根据百分比提取这些类型的记录。

有没有与java相关的算法来执行此操作?

如果我得到一些指导,这将对我有用。

1 个答案:

答案 0 :(得分:0)

您可以使用模糊字符串搜索来满足您的要求。 可以this帖子帮助你。 或者在DB中搜索,您也可以使用Hibernate搜索。见Hibernate Querying