Question

我想根据使用pandas的其他列中的值来平均某些行和列的值。数据框包含以下信息：

表示准确性的列（缩写为'acc'）
- 0 =无回复
- 1 =不正确
- 2 =正确
表示反应时间的列（缩写为'rt'）

以下是数据框中信息的摘录：

a1_acc a1_rt a2_acc a2_rt a3_acc a3_rt b_acc b_rt
2      780   2      830   2      690   2     950
1      630   2      750   0      0     2     890
2      710   2      810   1      740   1     820

我想做的是将所有'a'（但不是'b'）反应时间组合起来，如果它们来自正确的反应。也就是说，我想要一个包含以下反应时间的numpy数组（或其他合适的数据结构）：

780, 830, 690, 750, 710, 810

根据这些信息，我想计算平均反应时间（拒绝反应时间偏离平均值超过3个标准差）。

非常感谢任何帮助。

托马斯

Answer 1

我认为这不是你的DataFrame的最佳形状 - 我认为像＆＃34;字母＆＃34;，＆＃34;数字＆＃34;，＆＃34; acc＆＃34;，＆＃34; RT＆＃34;或某事（给他们更有意义的名字）会更容易转动。无论如何，根据您目前的安排：

>>> d
   a1_acc  a1_rt  a2_acc  a2_rt  a3_acc  a3_rt  b_acc  b_rt
0       2    780       2    830       2    690      2   950
1       1    630       2    750       0      0      2   890
2       2    710       2    810       1    740      1   820

首先，我们对.ix进行切片以获取_acc列并将它们与2进行比较：

>>> d.ix[:,0:6:2] == 2
  a1_acc a2_acc a3_acc
0   True   True   True
1  False   True  False
2   True   True  False

然后我们将其应用于_rt列的一部分：

>>> d.ix[:, 1:6:2][d.ix[:,0:6:2] == 2]
   a1_rt  a2_rt  a3_rt
0    780    830    690
1    NaN    750    NaN
2    710    810    NaN

展平：

>>> v = d.ix[:, 1:6:2][d.ix[:,0:6:2] == 2].unstack()
>>> v
a1_rt  0    780
       1    NaN
       2    710
a2_rt  0    830
       1    750
       2    810
a3_rt  0    690
       1    NaN
       2    NaN

现在我们可以采用均值并看到标准偏差（可能有一个内置函数来执行此操作，但我懒得查找它），自动忽略NaN值需要：

>>> v.mean()
761.66666666666663
>>> dev = ((v-v.mean())/v.std()).abs() < 3
>>> dev
a1_rt  0     True
       1    False
       2     True
a2_rt  0     True
       1     True
       2     True
a3_rt  0     True
       1    False
       2    False

我们使用的所有值都在3个标准偏差范围内，所以这个剪辑并不是很有趣，但无论如何我们都可以应用它：

>>> v[dev].mean()
761.66666666666663

同样，我会在一开始就考虑重塑您的数据，因此.ix丑陋可能更像是d[(d["letter"] == a) & (d["acc"] == 2)]["rt"]。

跨行和列求平均值取决于具有pandas的其他列中的值

1 个答案: