Question

我正在尝试创建将删除变音符号的函数（不要故意使用Normalizer）。函数看起来像

private static String normalizeCharacter(Character curr) {
    String sdiac = "áäčďéěíĺľňóôőöŕšťúůűüýřžÁÄČĎÉĚÍĹĽŇÓÔŐÖŔŠŤÚŮŰÜÝŘŽ";
    String bdiac = "aacdeeillnoooorstuuuuyrzAACDEEILLNOOOORSTUUUUYRZ";
    char[] s = sdiac.toCharArray();
    char[] b = bdiac.toCharArray();
    String ret;
    for(int i = 0; i < sdiac.length(); i++){
        if(curr == s[i])
            curr = b[i];
    }
    ret = curr.toString().toLowerCase();
    ret = ret.replace("\n", "").replace("\r","");
    return ret;
}

像这样调用

funcion（文件中的每个字符都被发送到此函数）

private static String readFile(String fName) {

    File f = new File(fName);
    StringBuilder sb = new StringBuilder();

    try{

        FileInputStream fStream = new FileInputStream(f);
        Character curr;
        while(fStream.available() > 0){
            curr = (char) fStream.read();
            sb.append(normalizeCharacter(curr));
            System.out.print(normalizeCharacter(curr));
        }
    }catch(IOException e){
        e.printStackTrace();
    }
    return sb.toString();
}

文件text.txt包含以下内容：ľščťžýáíéúäôň我希望lcstzyaieuaon从程序返回，但是在预期的字符串中我得到了这个¾è yaieuaoò。我知道问题在于编码，但不知道在哪里。有什么想法吗？

Answer 1

您正在尝试将字节转换为字符。

但是，字符ľ不表示为单个字节。其unicode表示为U + 013E，其UTF-8表示为C4 BE。因此，它由两个字节表示。其他角色也是如此。

假设您的文件编码为UTF-8。然后，您读取字节值C4，然后将其转换为char。这将为您提供字符U + 00C4（Ä），不 U + 013E。然后你读了BE，它被转换为字符U + 00BE（¾）。

所以不要混淆字节和字符。您应该使用InputStream来包装它，而不是直接使用Reader。 Reader能够根据创建的编码读取字符：

BufferedReader reader = new BufferedReader(
                            new InputStreamReader(
                                new FileInputStream(f), StandardCharsets.UTF_8
                            )
                        );

现在，您将能够读取字符甚至整行，并且编码将直接完成。

int readVal;
while ( ( readVal = reader.read() ) != -1 ) {
    curr = (char)readVal;
    // ... the rest of your code
}

如果您要使用不带参数的int，请记住您仍在阅读read()。

Java删除变音符号

1 个答案: