如何从包含二进制数据的字符串中提取模式

时间:2019-01-24 22:16:25

标签: arrays ruby ascii extraction

我有一个来自上一个a=array.unpack("C*")命令的数组。

a = [9, 32, 50, 53, 56, 53, 57, 9, 73, 78, 70, 79, 9, 73, 78, 70, 79, 53, 9, 
     32, 55, 52, 32, 50, 51, 32, 48, 51, 32, 57, 50, 32, 48, 48, 32, 48, 48, 32, 
     48, 48, 32, 69, 67, 32, 48, 50, 32, 49, 48, 32, 48, 48, 32, 69, 50, 32, 48, 
     48, 32, 55, 55, 9, 0, 0, 0, 0, 1, 12, 1, 0, 0, 0, 57, 254, 70, 6, 1, 6, 0, 3, 
     0, 3, 198, 0, 2, 198, 31, 147, 23, 0, 226, 7, 12, 17, 18, 56, 55, 3, 101, 1, 
     1, 0, 134, 7, 145, 5, 148, 37, 150, 133, 241, 135, 5, 22, 109, 145, 53, 38, 
     171, 4, 3, 2, 6, 192, 173, 22, 160, 20, 48, 18, 6, 9, 42, 134, 58, 0, 137, 97, 
     58, 1, 0, 164, 5, 48, 3, 129, 1, 7, 225, 16, 2, 1, 1, 4, 11, 9, 1, 10, 10, 6, 
     2, 19, 105, 145, 103, 116, 226, 35, 48, 3, 194, 1, 242, 48, 3, 194, 1, 241, 48, 
     3, 194, 1, 246, 48, 3, 194, 1, 245, 48, 3, 194, 1, 244, 48, 3, 194, 1, 243, 48, 
     3, 194, 1, 247, 177, 13, 10, 1, 1, 4, 8, 10, 6, 2, 19, 105, 145, 103, 116, 0, 0, 
     42, 3, 0, 0, 48, 48, 48, 48, 48, 48, 48, 50, 9, 82, 101, 99, 101, 105, 118, 101, 
     9, 50, 51, 9, 77, 111, 110, 32, 32]

当我转换为chr时,它看起来像这样:

 irb(main):4392:0> a.map(&:chr).join
 => "\t 25859\tINFO\tINFO5\t 74 23 03 92 00 00 00 EC 02 10 00 E2 00 77\t\x00\x00\x00\x00
 \x01\f\x01\x00\x00\x009\xFEF\x06\x01\x06\x00\x03\x00\x03\xC6\x00\x02\xC6\x1F\x93\x17\x00
 \xE2\a\f\x11\x1287\x03e\x01\x01\x00\x86\a\x91\x05\x94%\x96\x85\xF1\x87\x05\x16m\x915&\xAB
 \x04\x03\x02\x06\xC0\xAD\x16\xA0\x140\x12\x06\t*\x86:\x00\x89a:\x01\x00\xA4\x050\x03\x81
 \x01\a\xE1\x10\x02\x01\x01\x04\v\t\x01\n\n\x06\x02\x13i\x91gt\xE2#0\x03\xC2\x01\xF20\x03
 \xC2\x01\xF10\x03\xC2\x01\xF60\x03\xC2\x01\xF50\x03\xC2\x01\xF40\x03\xC2\x01\xF30\x03\xC2
 \x01\xF7\xB1\r\n\x01\x01\x04\b\n\x06\x02\x13i\x91gt\x00\x00*\x03\x00\x000000..."

我想提取INFO5\t\t...,之间的十六进制值,以便输出为

 "74 23 03 92 00 00 00 EC 02 10 00 E2 00 77"     

我的操作如下,但只删除了不需要的第一部分,并留下了\n\n\x06...000

我该如何解决?

irb(main)>: a.map(&:chr).join.gsub(/(\t .*\t )|(\t.*)/,"")
=> "74 23 03 92 00 00 00 EC 02 10 00 E2 00 77\n\n\x06\x02\x13i\x91gt\xE2#0
\x03\xC2\x01\xF20\x03\xC2\x01\xF10\x03\xC2\x01\xF60\x03\xC2\x01\xF50\x03\xC2
\x01\xF40\x03\xC2\x01\xF30\x03\xC2\x01\xF7\xB1\r\n\x01\x01\x04\b\n\x06\x02\
x13i\x91gt\x00\x00*\x03\x00\x0000000002"

非常感谢您的帮助。

UDPATE

下面是示例二进制文件。

input.dat

3 个答案:

答案 0 :(得分:2)

这里有两种方法(下面的a是问题中给出的缩写)。

a = [9, 32, 50, 53, 56, 53, 57, 9, 73, 78, 70, 79, 9, 73, 78, 70, 79, 53, 9, 
     32, 55, 52, 32, 50, 51, 32, 48, 51, 32, 57, 50, 32, 48, 48, 32, 48, 48,
     32, 48, 48, 32, 69, 67, 32, 48, 50, 32, 49, 48, 32, 48, 48, 32, 69, 50,
     32, 48, 48, 32, 55, 55, 9, 0, 0]

从解压后的字符串中提取出来以创建a

str = a.pack("C*")
  #=> "\t 25859\tINFO\tINFO5\t 74 23 03 92 00 00 00 EC 02 10 00 E2 00 77\t\x00\x00"

str[/(?<=INFO5\t).+?(?=\t)/].strip
  #=> "74 23 03 92 00 00 00 EC 02 10 00 E2 00 77" 

str是已转换为aa = str.unpack("C*))的字符串,因此无需计算。

(?<=INFO5\t )(?=\t)分别是正向后看正向后看。它们必须匹配,但不属于返回的匹配的一部分。 .+?中的(“非贪婪”)问号可确保匹配在遇到第一个选项卡之前立即终止。相比之下,

"abc\td\tef"[/(?<=a).+(?=\t)/]
  #=> "bc\td" 

a中提取并转换为字符串

pfix = "INFO5\t".unpack("C*")
  #=> [73, 78, 70, 79, 53, 9]
pfix_size = pfix.size
  #=> 6 
sfix = [prefix.last]
  #=> [9]
sfix_size = sfix.size
start = idx_start(a, pfix) + pfix_size
  #=> 19
a[start..idx_start(a[start..-1], sfix) + start - 1].pack("C*").strip
  #=> "74 23 03 92 00 00 00 EC 02 10 00 E2 00 77"

def idx_start(a, arr)
  arr_size = arr.size
  a.each_index.find { |i| a[i, arr_size] == arr }
end

答案 1 :(得分:1)

  1. 我假设您不需要非ASCII字节,因此在第一步中,我使用take_while将它们修剪为第一个空字节
  2. 然后我使用map(&:chr).join
  3. 将整数转换为字符串
  4. 最后,我使用正则表达式match /INFO5\t ?([^\t]*)\t/假设它们有趣的部分位于INFO5\t和下一个\t
  5. 之间。

-

a=array.unpack("C*")
a.take_while{|e| e > 0}.map(&:chr).join.match(/INFO5\t ?([^\t]*)\t/)[1]
# => "74 23 03 92 00 00 00 EC 02 10 00 E2 00 77"

答案 2 :(得分:1)

我假设您的意思是a=str.unpack("C*")-您可以unpack一个字符串,但不能一个数组。

要获得所需的结果,您完全不需要使用unpack 1 -只需执行一个正则表达式即可:

str.match(/INFO5\t(.*?)\t/).to_a[1]
# => " 74 23 03 92 00 00 00 EC 02 10 00 E2 00 77"

请注意,结果中有一个前导空格,但是您可以根据需要调整正则表达式;我不会尝试猜测这种格式的规格。

提示:

  • 需要使用?中的.*?来使*不贪心。
  • 如果to_a一无所获,raise可以避免match出错。

编辑

您对“ UTF-8中的无效字节序列”的评论表明您的数据可能是ASCII-8BIT(即与UTF-8不兼容),但存储在字符串中,其编码属性为“ UTF-8” 。如果您解释如何获取该字符串,将会有所帮助,因为该字符串的编码似乎是错误的。

解决方案1 ​​(这很理想):

以ASCII-8BIT格式读取文件:

str = File.read("input.dat", encoding: 'ASCII-8BIT')

解决方案2 (一种变通方法,如果您无法控制输入编码)

# NOTE: this changes the encoding on `str`
str.force_encoding("ASCII-8BIT")

完成此操作后,.match应该可以工作。

进一步的说明

您的map(&:chr).join起作用的原因是因为.chr将产生US-ASCIIASCII-8BIT字符串(后者发生在127以上的字节),而不是UTF-8

当您join这些字符串时,如果任何字节大于127,则结果将在ASCII-8BIT中。因此,这实际上与调用force_encoding("ASCII-8BIT")相同,除了map / join不会像force_encoding那样修改原始字符串的编码。


1 unpack是不必要的,因为a.map(&:chr).joinarr.pack('C*')相同,为您提供了原始的str。即使您不得不unpack将该字符串用于其他用途,我还是建议您使用原始字符串,而不是重新{pack}重新排列该数组。也许您可以将其封装到数据结构中,例如:

i_data = InfoData.new(str)
i_data.bytes  # array of bytes
i_data.hex_string  # "74 23 03 ..."

请注意,以上代码无法按原样工作-您需要自己编写InfoData类。