将pypeas.Series从dtype对象转换为float,将错误转换为nans

时间:2014-09-20 20:01:00

标签: python pandas

考虑以下情况:

In [2]: a = pd.Series([1,2,3,4,'.'])

In [3]: a
Out[3]: 
0    1
1    2
2    3
3    4
4    .
dtype: object

In [8]: a.astype('float64', raise_on_error = False)
Out[8]: 
0    1
1    2
2    3
3    4
4    .
dtype: object

我原本期望一个允许转换的选项,同时将错误的值(例如.)转换为NaN s。有没有办法实现这个目标?

2 个答案:

答案 0 :(得分:29)

  

如何将pandas.Series从dtype object转换为float,将错误转换为nans?

自v0.17起,convert_objects已弃用。

要将系列转换为数字,请将pd.to_numericerrors='coerce'参数一起使用。

# Setup.
s = pd.Series(['1','2','3','4','.'])
s

0    1
1    2
2    3
3    4
4    .
dtype: object

pd.to_numeric(s, errors='coerce')

0    1.0
1    2.0
2    3.0
3    4.0
4    NaN
dtype: float64

如果您需要填写NaN,请使用Series.fillna

pd.to_numeric(s, errors='coerce').fillna(0, downcast='infer')

0    1
1    2
2    3
3    4
4    0
dtype: float64

注意,downcast='infer'将尝试在可能的情况下将浮点数向下转换为整数。如果你不想要,请删除参数。

  

从v0.24 +开始,pandas引入了Nullable Integer类型,允许   整数与NaNs共存。如果列中有整数,   你可以用

pd.__version__
# '0.24.1'

pd.to_numeric(s, errors='coerce').astype('Int32')

0      1
1      2
2      3
3      4
4    NaN
dtype: Int32
     

还有其他选项可供选择,请阅读文档了解更多信息。

[{1}}

的扩展程序

如果您需要将其扩展到DataFrame,则需要应用于每一行。您可以使用DataFrame.apply执行此操作。

DataFrames

# Setup.
np.random.seed(0)
df = pd.DataFrame({
    'A' : np.random.choice(10, 5), 
    'C' : np.random.choice(10, 5), 
    'B' : ['1', '###', '...', 50, '234'], 
    'D' : ['23', '1', '...', '268', '$$']}
)[list('ABCD')]
df

   A    B  C    D
0  5    1  9   23
1  0  ###  3    1
2  3  ...  5  ...
3  3   50  2  268
4  7  234  4   $$

df.dtypes

A     int64
B    object
C     int64
D    object
dtype: object

您也可以使用DataFrame.transform执行此操作;虽然我的测试表明这个速度略慢:

df2 = df.apply(pd.to_numeric, errors='coerce')
df2

   A      B  C      D
0  5    1.0  9   23.0
1  0    NaN  3    1.0
2  3    NaN  5    NaN
3  3   50.0  2  268.0
4  7  234.0  4    NaN

df2.dtypes

A      int64
B    float64
C      int64
D    float64
dtype: object

如果您有许多列(数字;非数字),则可以通过仅在非数字列上应用df.transform(pd.to_numeric, errors='coerce') A B C D 0 5 1.0 9 23.0 1 0 NaN 3 1.0 2 3 NaN 5 NaN 3 3 50.0 2 268.0 4 7 234.0 4 NaN 来提高性能。

pd.to_numeric

对于长数据框,在列上应用df.dtypes.eq(object) A False B True C False D True dtype: bool cols = df.columns[df.dtypes.eq(object)] # Actually, `cols` can be any list of columns you need to convert. cols # Index(['B', 'D'], dtype='object') df[cols] = df[cols].apply(pd.to_numeric, errors='coerce') # Alternatively, # for c in cols: # df[c] = pd.to_numeric(df[c], errors='coerce') df A B C D 0 5 1.0 9 23.0 1 0 NaN 3 1.0 2 3 NaN 5 NaN 3 3 50.0 2 268.0 4 7 234.0 4 NaN (即pd.to_numeric,默认值)应该稍快一些。

答案 1 :(得分:19)

In [30]: pd.Series([1,2,3,4,'.']).convert_objects(convert_numeric=True)
Out[30]: 
0     1
1     2
2     3
3     4
4   NaN
dtype: float64
相关问题