识别多个字符串中的公共子串(电子邮件签名)

时间:2015-07-01 14:47:48

标签: c# asp.net

如果您曾经见过很长的Gmail帖子,那么您会发现他们已经隐藏了#cn;'显示的电子邮件底部的类似文本(如电子邮件签名或内联回复文本),以便于阅读。我试图做类似的事情。

我有一系列电子邮件(仅限文本),我正在尝试识别这些电子邮件中的常见签名行。显然,签名的格式各不相同。但是,我将拥有整个电子邮件线程,所以如果我可以比较阵列中的每个电子邮件寻找常见字符串,我希望能够识别签名。

由于我不是一个训练有素的程序员,我有点困在哪里开始。我知道的一件事是,签名将在'结尾处。电子邮件。

我正在考虑从第一封电子邮件的最后一行开始,并检查其余电子邮件的最后一行。如果匹配,则隐藏该行并检查第2行到最后一行。如果不匹配,请转到第二封电子邮件并重复此过程。这感觉非常简单,可能是一个坏主意。

我确定有一些算法要比较并显示类似的子串(filecompare程序,如kdiff / WinMerge这样做),任何有关从何处开始的建议都将受到赞赏。

1 个答案:

答案 0 :(得分:1)

我认为(我可能错了)您正在寻找逐行比较器。如果是这样,您在网络上有大量信息。

THIS(只是一个简单的样本,必须适应)

希望有所帮助