TL; DR版本：

Question

我有一个包含一列的数据框，我想将其拆分为两列，其中一列标题为“fips'而另一列'row'

我的数据框df如下所示：

          row
0    00000 UNITED STATES
1    01000 ALABAMA
2    01001 Autauga County, AL
3    01003 Baldwin County, AL
4    01005 Barbour County, AL

我不知道如何使用df.row.str[:]来实现分割行单元格的目标。我可以使用df['fips'] = hello添加新列，并使用hello填充该列。有任何想法吗？

         fips       row
0    00000 UNITED STATES
1    01000 ALABAMA 
2    01001 Autauga County, AL
3    01003 Baldwin County, AL
4    01005 Barbour County, AL

Answer 1

TL; DR版本：

对于简单的情况：

我有一个带分隔符的文本列，我想要两列

最简单的解决方案是：

df['A'], df['B'] = df['AB'].str.split(' ', 1).str

或者，您可以使用以下内容为分组的每个条目创建一个包含一列的DataFrame：

df['AB'].str.split(' ', 1, expand=True)

请注意，在任何一种情况下，.tolist()方法都不是必需的。两者都不是zip()。

详细说明：

Andy Hayden's solution在展示str.extract()方法的力量方面非常出色。

但是对于已知分隔符的简单拆分（例如，通过破折号拆分或按空格拆分），.str.split()方法足够¹。它在字符串的列（系列）上运行，并返回列的列（系列）：

>>> import pandas as pd
>>> df = pd.DataFrame({'AB': ['A1-B1', 'A2-B2']})
>>> df

      AB
0  A1-B1
1  A2-B2
>>> df['AB_split'] = df['AB'].str.split('-')
>>> df

      AB  AB_split
0  A1-B1  [A1, B1]
1  A2-B2  [A2, B2]

_{1：如果您不确定.str.split()的前两个参数是做什么的，
我推荐plain Python version of the method。}

的文档

但你是怎么做的：

包含两个元素列表的列

为：

两列，每列包含列表中的相应元素？

好吧，我们需要仔细查看一列的.str属性。

它是一个神奇的对象，用于收集将列中的每个元素视为字符串的方法，然后尽可能高效地在每个元素中应用相应的方法：

>>> upper_lower_df = pd.DataFrame({"U": ["A", "B", "C"]})
>>> upper_lower_df

   U
0  A
1  B
2  C
>>> upper_lower_df["L"] = upper_lower_df["U"].str.lower()
>>> upper_lower_df

   U  L
0  A  a
1  B  b
2  C  c

但它也有一个＆＃34;索引＆＃34;用于通过索引获取字符串的每个元素的接口：

>>> df['AB'].str[0]

0    A
1    A
Name: AB, dtype: object

>>> df['AB'].str[1]

0    1
1    2
Name: AB, dtype: object

当然，.str的索引接口并不关心它所索引的每个元素实际上是一个字符串，只要它可以被索引，所以：

>>> df['AB'].str.split('-', 1).str[0]

0    A1
1    A2
Name: AB, dtype: object

>>> df['AB'].str.split('-', 1).str[1]

0    B1
1    B2
Name: AB, dtype: object

然后，利用迭代的Python元组解包来做一件简单的事情

>>> df['A'], df['B'] = df['AB'].str.split('-', 1).str
>>> df

      AB  AB_split   A   B
0  A1-B1  [A1, B1]  A1  B1
1  A2-B2  [A2, B2]  A2  B2

当然，从分割一列字符串中获取DataFrame是非常有用的，.str.split()方法可以使用expand=True参数为您执行此操作：

>>> df['AB'].str.split('-', 1, expand=True)

    0   1
0  A1  B1
1  A2  B2

所以，另一种完成我们想要的方法是：

>>> df = df[['AB']]
>>> df

      AB
0  A1-B1
1  A2-B2

>>> df.join(df['AB'].str.split('-', 1, expand=True).rename(columns={0:'A', 1:'B'}))

      AB   A   B
0  A1-B1  A1  B1
1  A2-B2  A2  B2

Answer 2

可能有更好的方法，但这是一种方法：

In [34]: import pandas as pd

In [35]: df
Out[35]: 
                        row
0       00000 UNITED STATES
1             01000 ALABAMA
2  01001 Autauga County, AL
3  01003 Baldwin County, AL
4  01005 Barbour County, AL

In [36]: df = pd.DataFrame(df.row.str.split(' ',1).tolist(),
                                   columns = ['flips','row'])

In [37]: df
Out[37]: 
   flips                 row
0  00000       UNITED STATES
1  01000             ALABAMA
2  01001  Autauga County, AL
3  01003  Baldwin County, AL
4  01005  Barbour County, AL

Answer 3

使用正则表达式模式可以extract完全不同地使用不同的部分：

In [11]: df.row.str.extract('(?P<fips>\d{5})((?P<state>[A-Z ]*$)|(?P<county>.*?), (?P<state_code>[A-Z]{2}$))')
Out[11]: 
    fips                    1           state           county state_code
0  00000        UNITED STATES   UNITED STATES              NaN        NaN
1  01000              ALABAMA         ALABAMA              NaN        NaN
2  01001   Autauga County, AL             NaN   Autauga County         AL
3  01003   Baldwin County, AL             NaN   Baldwin County         AL
4  01005   Barbour County, AL             NaN   Barbour County         AL

[5 rows x 5 columns]

解释有点长的正则表达式：

(?P<fips>\d{5})

匹配五位数（\d）并将其命名为"fips"。

下一部分：

((?P<state>[A-Z ]*$)|(?P<county>.*?), (?P<state_code>[A-Z]{2}$))

是否（|）有两件事之一：

(?P<state>[A-Z ]*$)

匹配任意数字（*）的大写字母或空格（[A-Z ]），并在字符串结尾（"state"）之前命名此$，

或

(?P<county>.*?), (?P<state_code>[A-Z]{2}$))

匹配其他任何内容（.*），然后
一个逗号和一个空格然后
在字符串结尾（state_code）之前匹配两位数$。

在示例中：
请注意，前两行命中“state”（在县和state_code列中留下NaN），而最后三行命中县，state_code（在州列中留下NaN）。

Answer 4

df[['fips', 'row']] = df['row'].str.split(' ', n=1, expand=True)

Answer 5

如果您不想创建新的数据框，或者您的数据框的列数多于您要拆分的列数，则可以：

df["flips"], df["row_name"] = zip(*df["row"].str.split().tolist())
del df["row"]

Answer 6

您可以使用str.split按空格（默认分隔符）和expand=True参数DataFrame分配给新列：

df = pd.DataFrame({'row': ['00000 UNITED STATES', '01000 ALABAMA', 
                           '01001 Autauga County, AL', '01003 Baldwin County, AL', 
                           '01005 Barbour County, AL']})
print (df)
                        row
0       00000 UNITED STATES
1             01000 ALABAMA
2  01001 Autauga County, AL
3  01003 Baldwin County, AL
4  01005 Barbour County, AL



df[['a','b']] = df['row'].str.split(n=1, expand=True)
print (df)
                        row      a                   b
0       00000 UNITED STATES  00000       UNITED STATES
1             01000 ALABAMA  01000             ALABAMA
2  01001 Autauga County, AL  01001  Autauga County, AL
3  01003 Baldwin County, AL  01003  Baldwin County, AL
4  01005 Barbour County, AL  01005  Barbour County, AL

如果需要修改，请使用DataFrame.pop

删除原始列

df[['a','b']] = df.pop('row').str.split(n=1, expand=True)
print (df)
       a                   b
0  00000       UNITED STATES
1  01000             ALABAMA
2  01001  Autauga County, AL
3  01003  Baldwin County, AL
4  01005  Barbour County, AL

同样如下：

df[['a','b']] = df['row'].str.split(n=1, expand=True)
df = df.drop('row', axis=1)
print (df)

       a                   b
0  00000       UNITED STATES
1  01000             ALABAMA
2  01001  Autauga County, AL
3  01003  Baldwin County, AL
4  01005  Barbour County, AL

如果收到错误：

#remove n=1 for split by all whitespaces
df[['a','b']] = df['row'].str.split(expand=True)

ValueError：列的长度必须与键的长度相同

您可以检查并返回4列DataFrame，而不仅仅是2：

print (df['row'].str.split(expand=True))
       0        1        2     3
0  00000   UNITED   STATES  None
1  01000  ALABAMA     None  None
2  01001  Autauga  County,    AL
3  01003  Baldwin  County,    AL
4  01005  Barbour  County,    AL

然后，解决方案会在join附加新的DataFrame：

df = pd.DataFrame({'row': ['00000 UNITED STATES', '01000 ALABAMA', 
                           '01001 Autauga County, AL', '01003 Baldwin County, AL', 
                           '01005 Barbour County, AL'],
                    'a':range(5)})
print (df)
   a                       row
0  0       00000 UNITED STATES
1  1             01000 ALABAMA
2  2  01001 Autauga County, AL
3  3  01003 Baldwin County, AL
4  4  01005 Barbour County, AL

df = df.join(df['row'].str.split(expand=True))
print (df)

   a                       row      0        1        2     3
0  0       00000 UNITED STATES  00000   UNITED   STATES  None
1  1             01000 ALABAMA  01000  ALABAMA     None  None
2  2  01001 Autauga County, AL  01001  Autauga  County,    AL
3  3  01003 Baldwin County, AL  01003  Baldwin  County,    AL
4  4  01005 Barbour County, AL  01005  Barbour  County,    AL

删除原始列（如果还有其他列）：

df = df.join(df.pop('row').str.split(expand=True))
print (df)
   a      0        1        2     3
0  0  00000   UNITED   STATES  None
1  1  01000  ALABAMA     None  None
2  2  01001  Autauga  County,    AL
3  3  01003  Baldwin  County,    AL
4  4  01005  Barbour  County,    AL

Answer 7

如果要根据分隔符将字符串拆分为两列以上，可以省略“最大拆分”参数。
您可以使用：

df['column_name'].str.split('/', expand=True)

这将自动创建与任何初始字符串中包含的最大字段数一样多的列。

Answer 8

惊讶的是我还没看过这个。如果您只需要两个分割，我强烈建议您。。

`Series.str.partition`

partition在分隔符上执行一次拆分，并且通常表现出色。

df['row'].str.partition(' ')[[0, 2]]

       0                   2
0  00000       UNITED STATES
1  01000             ALABAMA
2  01001  Autauga County, AL
3  01003  Baldwin County, AL
4  01005  Barbour County, AL

如果您需要重命名行，

df['row'].str.partition(' ')[[0, 2]].rename({0: 'fips', 2: 'row'}, axis=1)

    fips                 row
0  00000       UNITED STATES
1  01000             ALABAMA
2  01001  Autauga County, AL
3  01003  Baldwin County, AL
4  01005  Barbour County, AL

如果您需要将其恢复为原始版本，请使用join或concat：

df.join(df['row'].str.partition(' ')[[0, 2]])

pd.concat([df, df['row'].str.partition(' ')[[0, 2]]], axis=1)

                        row      0                   2
0       00000 UNITED STATES  00000       UNITED STATES
1             01000 ALABAMA  01000             ALABAMA
2  01001 Autauga County, AL  01001  Autauga County, AL
3  01003 Baldwin County, AL  01003  Baldwin County, AL
4  01005 Barbour County, AL  01005  Barbour County, AL

Answer 9

我更喜欢导出相应的pandas系列（即我需要的列），使用 apply 功能将列内容拆分为多个系列，然后加入生成的列到现有的DataFrame。当然，应该删除源列。

e.g。

 col1 = df["<col_name>"].apply(<function>)
 col2 = ...
 df = df.join(col1.to_frame(name="<name1>"))
 df = df.join(col2.toframe(name="<name2>"))
 df = df.drop(["<col_name>"], axis=1)

要分割两个单词，字符串函数应该是这样的：

lambda x: x.split(" ")[0] # for the first element
lambda x: x.split(" ")[-1] # for the last element

Answer 10

我看到没有人使用过切片法，所以我在这里放了2美分。

df["<col_name>"].str.slice(stop=5)
df["<col_name>"].str.slice(start=6)

此方法将创建两个新列。

Answer 11

使用Statement s = connection.createStatement(); s.execute("CREATE LINKED TABLE IF NOT EXISTS \"" + linkedName.replaceAll("\"", "\"\"") + "\"('', '" + url.replaceAll("'", "''") + "', '" + user.replaceAll("'", "''") + "', '" + password.replaceAll("'", "''") + "', '" + schema.replaceAll("'", "''") + "', '" + table.replaceAll("'", "''") + "')");创建一个新的df。参见http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

df.assgin

如何将列拆分为两列？

11 个答案:

TL; DR版本：

详细说明：

`Series.str.partition`