优化字节数组简单模式匹配

时间:2015-05-21 12:57:12

标签: java pattern-matching bytearray

对于练习,我必须在字节数组中寻找某个字节模式,这很容易,但我想知道代码是否可以简化甚至优化:

package anti_virus;

import java.nio.file.Files;
import java.nio.file.Paths;

public class Main {

    public static void main(String[] args) throws Exception {
        byte[] virus = Files.readAllBytes(Paths.get("C:/Users/Nick/Desktop/Uni/infected.com"));

        byte[] payload = new byte[]{0x56, 0x69, 0x72, 0x75, 0x73, (byte)0xB4, 0x40, (byte) 0xBB, 0x01,
                0x00, (byte) 0xB9, 0x05, 0x00, (byte) 0xBA, 0x0, 0x0, (byte) 0xCD, 0x21};

        // payload[14] and payload[14] have varying values

        for (int i = 0; i < virus.length; i++) {
            if ((virus[i] == payload[0]) && (virus[i+1] == payload[1]) && (virus[i+2] == payload[2]) &&
                (virus[i+3] == payload[3]) && (virus[i+4] == payload[4]) && (virus[i+5] == payload[5]) &&
                (virus[i+6] == payload[6]) && (virus[i+7] == payload[7]) && (virus[i+8] == payload[8]) &&
                (virus[i+9] == payload[9]) && (virus[i+10] == payload[10]) && (virus[i+11] == payload[11]) &&
                (virus[i+12] == payload[12]) && (virus[i+13] == payload[13]) && (virus[i+16] == payload[16]) &&
                (virus[i+17] == payload[17])) {
                  System.out.println("This file is probably a Virus!");
                  return;
            }
        }

        System.out.println("This file is no Virus.");
    }
}

4 个答案:

答案 0 :(得分:3)

是的,它可以简化/优化:

  • 您可以使用KMP algorithm(前14个字节)。对于任意O(payload.length + virus.length)而不是payload,此算法在O(payload.length * virus.length)中运行。 (您的代码比O(payload.length * virus.length)更有效,原因只有一个:0x56仅作为数组的第一个元素出现)
  • 即使您选择保留算法,我也会使用循环来缩短代码。更具可读性。我还会在您的循环中修复ArrayIndexOutOfBoundsException的来源(您可以访问i, ..., i+13, i+16, i+17数组的索引virus,并且您的循环条件允许i变得更大如virus.length-1)。

答案 1 :(得分:1)

您的代码非常好,它在非病毒6 MB文件上提供了合理的21 ms。但我发现最好为前14个字节做一些预循环。而且,你必须注意结束字节。

split()

这第一个优化给出一个合理的14 ms(占CPU的-33%)。

如果您能够将文件读取为整数,则另一个优化是一次进行广泛比较(4个字节)。您应该将有效负载填充为4的倍数。

begin = System.currentTimeMillis();
for (i = 0; i < virus.length-payload.length; i++) {
    for (j = 0; j < 14; j++) {
        // payload[14] and payload[15] have varying values
        if (virus[i+j] != payload[j]) {
            bFound = false;
            break;
        }
    }
    if ((bFound) && (virus[i+16] == payload[16]) && (virus[i+17] == payload[17])) {
        end = System.currentTimeMillis();
        System.out.println("time : "+(end-begin)+" ms");
        System.out.println("This file is probably a Virus!");
        return;
    }
}
end = System.currentTimeMillis();
System.out.println("time : "+(end-begin)+" ms");
System.out.println("This file is not a Virus.");

这给我一个更合理的2毫秒(-90%的CPU)。当然,我不计算转换为int数组的时间,因为我认为你加载为int数组,你的有效负载也是int数组。 我没有尝试过long(在JAVA中是64位),但它可能会快一点。

答案 2 :(得分:0)

这样的东西会在阵列中的任何地方检查签名, 它尚未经过彻底测试

public static void main(String[] args) throws Exception {
    byte[] virus = FileUtil.readBytes(new File("c:/x.txt"));
    byte[] payload = "def".getBytes();

    for (int i = 0; i < virus.length; i++) {
        if ((i + payload.length) <= virus.length) {
            boolean found = true;
            for (int j = 0; j < payload.length; j++) {
                if (virus[i + j] != payload[j]) {
                    found = false;
                    break;
                }
            }

            if (found) {
                System.out.println("This file is probably a Virus!");
                return;
            }
        } else {
            break;
        }
    }

    System.out.println("This file is no Virus.");
}

答案 3 :(得分:0)

(这里我假设病毒是病毒签名,有效载荷是任何数据。我看错你的代码可能是错的。)

必须在[0,payload.length - virus.length](!)中使用paylöadIndex的有效负载数组,并在每个步骤中使用virusIndex在for循环中再次检查病毒数组。

问题解决方案策略。想想你将如何在纸上做到这一点。您可以将病毒阵列转移到有效负载阵列上。