Question

给出以下数据框：

import pandas as pd
import numpy as np
df = pd.DataFrame({'A':['1a',np.nan,'10a','100b','0b'],
                   })
df

    A
0   1a
1   NaN
2   10a
3   100b
4   0b

我想从每个单元格中提取数字（它们存在的位置）。期望的结果是：

我知道可以使用str.extract完成，但我不确定如何。

Answer 1

给它一个正则表达式捕获组：

df.A.str.extract('(\d+)')

给你：

0      1
1    NaN
2     10
3    100
4      0
Name: A, dtype: object

Answer 2

要在上面的评论中回答@Steven G的问题，这应该有效：

df.A.str.extract('(^\d*)')

Answer 3

U可以使用“分配”功能将列替换为结果：

df = df.assign(A = lambda x: x['A'].str.extract('(\d+)'))

Pandas从字符串中提取数字

3 个答案: