多语言文本垃圾邮件检测

时间:2016-04-25 13:51:28

标签: machine-learning nlp spam-prevention email-spam spamassassin

许多技术可用于检测特定语言的垃圾邮件,如果采用适当的技术,它可以使系统能够检测多种语言的垃圾邮件,但这需要使用特定语言的单个文本。 / p>

所以我的问题是如何检测由多种语言组成的文本?这不仅仅是语言检测。我想知道一些做多语言文本垃圾邮件检测的最佳实践。

1 个答案:

答案 0 :(得分:0)

一个天真的解决方案仍然是使用翻译API将文本按语言分割成片段。然后按语言对文本片段进行分类。

这是一个简单的解决方案,但我担心转换API经常被调用时的性能。

我想知道大公司或一些优秀的项目如何处理这个问题?