使用matcher.start()在matcher.find()中获取行号

时间:2011-10-24 03:17:57

标签: java regex matcher

我使用while(matcher.find())循环并从文件中检索内容。我想知道如果我知道我找到的索引是matcher.start(),我将如何从这个循环中得到一个行号。

我很困惑,有人可以解释一下吗?

 String expr = "<[^<?!>]+>";
     String[] response = new String[5];

        Pattern p = Pattern.compile(expr);
        Matcher m = p.matcher(xmlDocument);
        while (m.find()) {
        //  System.out.println(m.group() + " located at " + m.start());
       //   txtMatches.append(m.group() + " located at " + m.start() + "\n");
            if (itemStack.getCount() == 0 && m.group().contains("</")) {
                response[0] = "Orphan closing tag" ; 
                response[1] = stripUnwantedChars(m.group(), true); 
                response[2] =  String.valueOf(m.start()); //right here is where i want to return line number
                return response; 
            }
        //rest of code

itemStack是一堆推送的匹配,然后我比较它们以查看堆栈中是否有更多项目但是与结束标记匹配。

2 个答案:

答案 0 :(得分:2)

您需要单独创建每行开始的索引数组,然后您可以将此数组与start()返回的索引一起使用,以确定您的匹配所在的行。对该行索引数组的二进制搜索可以很好地完成。你实际上也可以通过使用匹配行结尾的正则表达式来创建这个行索引列表(只匹配'\ n'就可以了),然后在下一个字符处开始每一行。

答案 1 :(得分:2)

您可以使用反向方法通过创建从0开始返回从start()返回的字符数的区域来获取行号。

例如,

class MatchTest {
public static void main(String...args) {
    try {
        FileInputStream fis = new FileInputStream("source.txt");
        byte[] buffer = new byte[fis.available()];
        fis.read(buffer);
        String data = new String(buffer);
        fis.close();


        Pattern pattern = Pattern.compile(args[0]);
        Matcher matcher = pattern.matcher(data);
        while(matcher.find()) {
            out.println(matcher.group());
            out.println(getLine(data, matcher.start()));


        }
    }
    catch(Exception e) {
        e.printStackTrace();
    }
}

static int getLine(String data, int start) {
    int line = 1;
    Pattern pattern = Pattern.compile("\n");
    Matcher matcher = pattern.matcher(data);
    matcher.region(0, start);
    while(matcher.find()) {
        line++;
    }
    return(line);
}

}

此处,getLine方法将返回行号。

相关问题