preg_match_all删除拉丁字母

时间:2012-08-26 22:37:41

标签: php preg-replace preg-match-all latin

拉丁字符有问题,这是代码:

$stopWords = array('i','a','about','an','and','are','as','at','be','by','com','de','en','for','from','how','in','is','it','la','of','on','or','that','the','this','to','was','what','when','where','who','will','with','und','the','www', 'on', 'ona', 'ja');

$string = preg_replace('/\s\s+/i', '', $string); // replace whitespace
$string = trim($string); // trim the string

$string = preg_replace('/[^a-zA-Z0-9žšđč掊ĐČĆ -]/', '', $string); // only take alphanumerical characters, but keep the spaces and dashes too…

$string = mb_strtolower($string); // make it lowercase

preg_match_all('/\b.*?\b/i', $string, $matchWords);

$matchWords = $matchWords[0];

foreach ( $matchWords as $key=>$item ) {
    if ( $item == '' || in_array(strtolower($item), $stopWords) || strlen($item) <= 3 ) {
        unset($matchWords[$key]);
    }
}

$wordCountArr = array();
if ( is_array($matchWords) ) {
    foreach ( $matchWords as $key => $val ) {
        $val = strtolower($val);
        if ( isset($wordCountArr[$val]) ) {
            $wordCountArr[$val]++;
        } else {
            $wordCountArr[$val] = 1;
        }
    }
}
arsort($wordCountArr);
$wordCountArr = array_slice($wordCountArr, 0, 10);
return $wordCountArr;

当我从此代码返回$matchWords[0]时:

preg_match_all('/\b.*?\b/i', $string, $matchWords);

我在数组中得到了这个带有内爆空间的字符串:

  

ti si mi znaj na srcu kvar znaj znaj znajsrcužurrka

ž urka

上有空格

1 个答案:

答案 0 :(得分:2)

来自文档: 单词边界是主题字符串中当前字符和前一个字符不匹配\ w或\ W(即一个匹配\ w而另一个匹配\ W),或者开头或结尾的位置如果第一个或最后一个字符分别与\ w匹配,则为字符串。

ž(包括前面的空格)与 \ W 相匹配,但是你匹配 \ w ,因此你会得到ž和{{ 1}}

最后的这些字符与模式不匹配:

urka

...它们都是 \ W 字符,需要后跟 \ w 字符才能匹配模式(第二个 \ b

我猜你正在寻找u-modifier。 试试

 žšđčć ŽŠĐČĆ :)