Question

尝试将Fortran中生成的二进制文件读入Python，其中包含一些整数，一些实数和逻辑。目前我正确地阅读了前几个数字：

x = np.fromfile(filein, dtype=np.int32, count=-1)
firstint= x[1]
...

（np是numpy）。但下一个项目是合乎逻辑的。后来又在实际上再次实施。我该怎么办？

Answer 1

通常情况下，当您阅读此类值时，它们会处于常规模式（例如，类似C的结构数组）。

另一种常见情况是各种值的短标题，后跟一堆同质数据。

让我们先处理第一个案例。

读取数据类型的常规模式

例如，您可能会遇到以下情况：

float, float, int, int, bool, float, float, int, int, bool, ...

如果是这种情况，您可以定义一个dtype以匹配类型的模式。在上面的例子中，它可能看起来像：

dtype=[('a', float), ('b', float), ('c', int), ('d', int), ('e', bool)]

（注意：有许多定义dtype的不同方法。例如，您也可以将其写为np.dtype('f8,f8,i8,i8,?')。有关详细信息，请参阅numpy.dtype的文档。。）

当您读入数组时，它将是一个带有命名字段的结构化数组。如果您愿意，可以稍后将其拆分为单个数组。（例如series1 = data['a']上面定义的dtype）

这样做的主要优点是从磁盘读取数据的速度非常快。 Numpy将简单地将所有内容读入内存，然后根据您指定的模式解释内存缓冲区。

缺点是结构化数组的行为与常规数组略有不同。如果你不习惯他们，他们起初可能会感到困惑。要记住的关键部分是数组中的每个项目是您指定的模式之一。例如，对于我上面显示的内容，data[0]可能类似于(4.3, -1.2298, 200, 456, False)。

在标题中阅读

另一种常见情况是，您有一个知道格式的标题，然后是一系列常规数据。您仍然可以使用np.fromfile，但是您需要单独解析标题。

首先，阅读标题。您可以通过多种不同的方式执行此操作（例如，除了struct之外，请查看np.fromfile模块，但其中任何一个都可能适用于您的目的）。

之后，当您将文件对象传递给fromfile时，文件的内部位置（即f.seek控制的位置）将位于标题的末尾和数据的开头。如果文件的其余部分都是一个同质类型的数组，那么只需要调用np.fromfile(f, dtype)即可。

作为一个简单的例子，您可能会遇到以下情况：

import numpy as np

# Let's say we have a file with a 512 byte header, the 
# first 16 bytes of which are the width and height 
# stored as big-endian 64-bit integers.  The rest of the
# "main" data array is stored as little-endian 32-bit floats

with open('data.dat', 'r') as f:
    width, height = np.fromfile(f, dtype='>i8', count=2)
    # Seek to the end of the header and ignore the rest of it
    f.seek(512)
    data = np.fromfile(f, dtype=np.float32)

# Presumably we'd want to reshape the data into a 2D array:
data = data.reshape((height, width))

读取具有不同数据类型的二进制文件

1 个答案:

读取数据类型的常规模式

在标题中阅读