将字符串拆分为瑞典语字符的单词

时间:2010-01-18 22:23:57

标签: php regex encoding utf-8

我正在尝试使用php-function preg_split将带有文本的字符串拆分为单词。

$words = preg_split('/\W/u',$text);

除瑞典语chars liteåäö外,它的工作正常。执行utf8_encode或解码也无济于事。我的猜测是preg_split只适用于单字节字符,瑞典字符是多字节的。还有其他办法吗?

2 个答案:

答案 0 :(得分:3)

你为什么要关注特定角色?

$text = "Jag har hört så mycket om dig.";
$words = explode(" ", $text);
/*
Array
(
    [0] => Jag
    [1] => har
    [2] => hört
    [3] => så
    [4] => mycket
    [5] => om
    [6] => dig.
)
*/

答案 1 :(得分:1)

mb_split救援(前段时间我自己遇到了问题,刚才找到了答案:)

mb_regex_encoding('UTF-8');
mb_split('\W', $text);

HTH