如何使用StringToWordVector过滤器从阿拉伯文本中删除英文字母

时间:2017-04-13 04:25:24

标签: java string filter weka arabic

我正在尝试在我的阿拉伯文字上使用StringToWordVector过滤器,我想删除英文字母和数字以及表情符号“我的数据是推文”,我只想保留阿拉伯语单词。 有谁知道如何使用StringToWordVector过滤器执行此操作? 顺便说一下,我正在使用带有Weka库的java。

1 个答案:

答案 0 :(得分:0)

您正在使用Java,因此请使用简单的字符串操作来保持简单。

删除拉丁字母和数字(英语使用):

String cleaned = input.replaceAll("[a-zA-Z0-9]", "");

"表情符号的定义"是松散的,但要删除它们,请尝试:

String cleaned = input.replaceAll("[a-zA-Z0-9]|[:;]-?[()ODp]", "");