Question

我认为我使用的正则表达式可以整理一下，看起来有点整洁，但我对正则表达式的了解有限。我想在输入文件的新行上扫描并匹配一系列字母和数字。

import java.io.File;
import java.util.Scanner;

import java.util.regex.*;

public class App {
    public static void main(String[] args) throws Exception {

    if (args.length == 1) {

        String fileName = args[0];
        String fileContent = new Scanner(new File(fileName))
                .useDelimiter("\\Z").next();

        ArrayList<Integer> parsedContent = new ArrayList<>();
        parsedContent = parseContentFromFileContent(fileContent);

        int firstInt = parsedContent.get(0);
        int secondInt = parsedContent.get(1);
        int thirdInt = parsedContent.get(2);
        int fourthInt = parsedContent.get(3);
        int fifthInt = parsedContent.get(4);

        System.out.println("First: " + firstInt);
        System.out.println("Second: " + secondInt);
        System.out.println("Third: " + thirdInt);
        System.out.println("Fourth: " + fourthInt);
        System.out.println("Fifth: " + fifthInt);

        return;
    }
  }

  public static ArrayList<Integer> parseContentFromFileContent(String fileContent) {

    ArrayList<Integer> parsedInts = new ArrayList<>();

    String pattern = "(.+?).((?:\\d*\\.)?\\d+)?\\n..((?:\\d*\\.)?\\d+)?\\n(.+?).((?:\\d*\\.)?\\d+)";
    Pattern p = Pattern.compile(pattern, Pattern.DOTALL);
    Matcher m = p.matcher(fileContent);

    if (m.matches()) {
        // Group 1: Has to match two letters
        switch (m.group(1)) {
            case "ab":
                parsedInts.add(1);
                break;
            case "cd":
                parsedInts.add(2);
                break;
            case "ef":
                parsedInts.add(3);
                break;
        }

        // Group 2: Has to match a number
        parsedInts.add(Integer.parseInt(m.group(2)));

        // Group 3: Has to match a letter
        parsedInts.add(Integer.parseInt(m.group(3)));

        // Group 4: Has to match a single letter
        switch (m.group(4)) {
            case "a":
                parsedInts.add(1);
                break;
            case "b":
                parsedInts.add(2);
                break;
            case "c":
                parsedInts.add(3);
                break;
        }
        // Group 5: Has to match a number
        parsedInts.add(Integer.parseInt(m.group(5)));
    }
    return parsedInts;
  }

}

输入文件：

ab-123 // Group 1 - Two letters a-z and Group 2 - Number
A=1    // Group 3 - Always A= [number]
a-1    // Group 4 - Letter a-z and Group 5 - Number

cd-1234
A=2
b-2

ef-12345
a=4
c-3

gh-123456
a=4
d-4

是否有更好（更干净）的正则表达式模式可用于从上面的文件中捕获数据。

pattern = (.+?).((?:\\d*\\.)?\\d+)?\\n..((?:\\d*\\.)?\\d+)?\\n(.+?).((?:\\d*\\.)?\\d+)

Answer 1

目前你的模式不是很精确，与你给出的描述相反。有很多.+?，但您的描述非常明确地说two letters或always A= - 因此您可以在您的模式中使用它。您的模式也会考虑十进制数，而显示的输入中没有，因此您可以删除(?:\\d*\\.)?。此外，您的所有数字匹配模式都是可选的，但根据您的描述，不应该这样。

如果一个人完全采用你的模式，可能的模式将是

([a-z]{2})-(\\d+)\\n[Aa]=(\\d+)\\n([a-z])-(\\d+)

请参阅https://regex101.com/r/WNxUQa/1

请注意，如果可能存在恶意输入，您可能需要稍微调整一下模式（例如，使用^和$）。

Answer 2

实际上没有优化正则表达式的东西，除非它包含回溯并且你可以删除它。您可以优化外观的方式，但所有执行相同操作的正则表达式都会编译为相同的DFA或等效的DFA，并具有相同的性能。

你会如何提高这个正则表达式的效率

2 个答案: