Question

关于 numpy的简单问题：

我将100个值加载到向量a。从这个向量，我想创建一个包含2列的数组A，其中一列名为“C1”，第二列为“C2”，一列为int32，另一列为int64。一个例子：

a = range(100)
A = array(a).reshape( len(a)/2, 2)
# A.dtype = ...?

当我从a创建数组时，如何定义列的类型和名称？

Answer 1

Numpy结构化数组已命名列：

import numpy as np

a=range(100)
A = np.array(zip(*[iter(a)]*2),dtype=[('C1','int32'),('C2','int64')])
print(A.dtype)
# [('C1', '<i4'), ('C2', '<i8')]

您可以按名称访问列：

print(A['C1'])
# [ 0  2  4  6  8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48
#  50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 84 86 88 90 92 94 96 98]

请注意，将np.array与zip一起使用会导致NumPy从一个临时的元组列表中构建一个数组。 Python的元组列表比等效的NumPy数组使用更多的内存。因此，如果您的数组非常大，则可能不想使用zip。

相反，给定NumPy数组A，您可以使用ravel()使A成为1D 数组，然后使用view将其转换为结构化数组，然后使用 astype将列转换为所需类型：

a = range(100)
A = array(a).reshape( len(a)/2, 2)
A = A.ravel().view([('col1','i8'),('col2','i8'),]).astype([('col1','i4'),('col2','i8'),])
print(A[:5])
# array([(0, 1), (2, 3), (4, 5), (6, 7), (8, 9)], 
#       dtype=[('col1', '<i4'), ('col2', '<i8')])

print(A.dtype)
# dtype([('col1', '<i4'), ('col2', '<i8')])

Answer 2

我知道这是一个老问题，但最近可用的选项是尝试使用pandas。 DataFrame类型是为这样的结构化数据设计的，其中列被命名并且可以是不同类型的。

numpy，命名列

2 个答案: