为什么\ R在Java 8和Java 9之间的正则表达式中表现不同?

时间:2017-12-18 15:53:18

标签: java regex unicode java-8 java-9

以下代码在Java 8和Java中编译。 9,但行为不同。

class Simple {
    static String sample = "\nEn un lugar\r\nde la Mancha\nde cuyo nombre\r\nno quiero acordarme";

    public static void main(String args[]){
        String[] chunks = sample.split("\\R\\R");
        for (String chunk: chunks) {
            System.out.println("Chunk : "+chunk);
        }
    }
}

当我使用Java 8运行它时,它返回:

Chunk : 
En un lugar
de la Mancha
de cuyo nombre
no quiero acordarme

但是当我用Java 9运行它时,输出是不同的:

Chunk : 
En un lugar
Chunk : de la Mancha
de cuyo nombre
Chunk : no quiero acordarme

为什么?

2 个答案:

答案 0 :(得分:63)

答案 1 :(得分:46)

Java documentation不符合Unicode标准。 Javadoc误认为\R应匹配的内容。它写着:

  

\R任何Unicode换行符序列都等同于\u000D\u000A|[\u000A\u000B\u000C\u000D\u0085\u2028\u2029]

Java文档存在问题。在其section on R1.6 Line Breaks, Unicode Technical Standard #18 on Regular Expressions明确指出:

  

强烈建议使用正则表达式元字符,例如" \ R",以匹配上面列出的所有行结束字符和序列(例如,在#1中)。这将对应于与以下表达式等效的内容。 由于需要避免备份,因此表达式稍微复杂。

 (?:\u{D A}|(?!\u{D A})[\u{A}-\u{D}\u{85}\u{2028}\u{2029}]

换句话说,它只能匹配两个代码点CR + LF(回车+换行)序列 或者 来自该集合的单个代码点只要它只是一个回车,然后是一个换行符。那是因为 不允许备份 。 CRLF必须是原子的\R才能正常运行。

因此Java 9不再符合R1.6强烈推荐的内容。而且,现在它正在做一些它应该做的事情,而不是在Java 8中做的事情。

现在是时候给谢尔曼(读作:沉雪明)再一次大喊大叫。我之前曾与他合作过这些关于正式合规的细节问题。