使用正则表达式preg_split将句子分解为单词

时间:2013-12-21 12:46:24

标签: php regex

我得到输入字符串,但完全可以理解和可预测)它有任何语言的任何文本(英语,俄语,日语,阿拉伯语...)我们需要分割一串单词和数字但是说日语文本被分割符号和删除符号

我使用preg_split

在PHP中工作

代码:

$arr = preg_split("/[^\p{L}\p{N}]/u", $text, -1, PREG_SPLIT_NO_EMPTY);

登录$ text:

攻壳机动队 ARISE 2 - [BCXA-0740]

门阵列$ arr:

攻
壳
机
动
队
ARISE
2
BCXA
0740

一些信息http://www.localizingjapan.com/blog/2012/01/20/regular-expressions-for-japanese-text/

1 个答案:

答案 0 :(得分:0)

对于正则表达式,您可以尝试:

\B(?=\p{Han})|\W

假设你的所有日文都是汉字。如果您的真实数据中可能还有其他数据,请使用替换

将其添加到预测中