Question

我在下面的代码中读取了一个具有特殊结构的大文件 - 其中包括需要同时处理的两个块。我没有在文件中来回搜索，而是加载了memoryview次调用

中包含的这两个块

with open(abs_path, 'rb') as bsa_file:
    # ...
    # load the file record block to parse later
    file_records_block = memoryview(bsa_file.read(file_records_block_size))
    # load the file names block
    file_names_block = memoryview(bsa_file.read(total_file_name_length))
    # close the file
file_records_index = names_record_index = 0
for folder_record in folder_records:
    name_size = struct.unpack_from('B', file_records_block, file_records_index)[0]
    # discard null terminator below
    folder_path = struct.unpack_from('%ds' % (name_size - 1),
        file_records_block, file_records_index + 1)[0]
    file_records_index += name_size + 1
    for __ in xrange(folder_record.files_count):
        file_name_len = 0
        for b in file_names_block[names_record_index:]:
            if b != '\x00': file_name_len += 1
            else: break
        file_name = unicode(struct.unpack_from('%ds' % file_name_len,
            file_names_block,names_record_index)[0])
        names_record_index += file_name_len + 1

文件已正确解析，但由于我第一次使用mamoryview界面，我不确定我是否正确。 file_names_block由空终止的c字符串组成。

我的技巧file_names_block[names_record_index:]使用了memoryview魔法还是创建了一些n ^ 2个切片？我需要在这里使用islice吗？
如图所示，我只是手动查找空字节，然后继续unpack_from。但我在How to split a byte string into separate bytes in python中读到我可以在内存视图中使用cast()（docs？） - 使用该（或其他技巧）以字节分割视图的任何方法？我可以打电话给split('\x00')吗？这会保留内存效率吗？

我很欣赏有关正确方法的见解（在python 2中）。

Answer 1

对于以null结尾的字符串，memoryview不会给你带来任何好处，因为它们除了固定宽度数据之外没有任何设施。您也可以在此处使用bytes.split()：

file_names_block = bsa_file.read(total_file_name_length)
file_names = file_names_block.split(b'\00')

切片memoryview不会使用额外的内存（视图参数除外），但如果使用强制转换，则在尝试访问元素时，会为解析的内存区域生成新的本机对象顺序。

您仍然可以使用memoryview进行file_records_block解析;这些字符串以长度为前缀，让您有机会使用切片。只需在处理folder_path值时切换内存视图的字节，就不需要保留索引：

for folder_record in folder_records:
    name_size = file_records_block[0]  # first byte is the length, indexing gives the integer
    folder_path = file_records_block[1:name_size].tobytes()
    file_records_block = file_records_block[name_size + 1:]  # skip the null

由于memoryview来自bytes对象，因此索引将为您提供字节的整数值，给定切片上的.tobytes()会为您提供新的bytes该部分的字符串，然后您可以继续切片以留下下一个循环的余数。

使用memoryview读取二进制文件

1 个答案: