Str从列表中包含并按列表项进行区分

时间:2019-12-26 08:55:36

标签: python python-3.x pandas pandas-groupby

我有一个数据框df,其中有两列:脚本(带文本)和扬声器

Script  Speaker
aze     Speaker 1 
art     Speaker 2
ghb     Speaker 3
jka     Speaker 1
tyc     Speaker 1
avv     Speaker 2 
bhj     Speaker 1

我有以下列表:list = ['a','b','c']

我的目标是仅使用列表中的项目来获得这样的矩阵/数据框。

Speaker     a    b    c
Speaker 1   2    1    1
Speaker 2   2    0    0
Speaker 3   0    1    0

我尝试了以下方法:

r = '|'.join(list)

nb_df = df[df['Script'].str.contains(r, case = False)]
df_target = nb_df.groupby('Speaker')['Speaker'].count()

我获得了目标的一部分,我知道每个发言者说从列表中搜索项目的时间。但我无法区分每个项目的时间。

  1. 如何使用pandas函数(如果存在)实现
  2. 如何使用Python循环实现它?

2 个答案:

答案 0 :(得分:5)

首先不要像变量一样使用list,因为内置的(Python代码字)。

crosstabSeries.str.extractall一起使用:

print (df)
  Script    Speaker
0    azc  Speaker 1 <-change sample data
1    art  Speaker 2
2    ghb  Speaker 3
3    jka  Speaker 1
4    tyc  Speaker 1
5    avv  Speaker 2
6    bhj  Speaker 1

L = ['a','b','c']
pat = r'({})'.format('|'.join(L))
df = df.set_index('Speaker')['Script'].str.extractall(pat)[0].reset_index(name='val')

df = pd.crosstab(df['Speaker'], df['val'])
print (df)
val        a  b  c
Speaker           
Speaker 1  2  1  2
Speaker 2  2  0  0
Speaker 3  0  1  0

如果性能不是那么重要,则每级使用3个文本函数Series.str.findallSeries.str.joinSeries.str.get_dummiessum

df = (df.set_index('Speaker')['Script'].str.findall('|'.join(L))
        .str.join('|')
        .str.get_dummies()
        .sum(level=0))
print (df)
           a  b  c
Speaker           
Speaker 1  2  1  2
Speaker 2  2  0  0
Speaker 3  0  1  0

答案 1 :(得分:3)

您可以将series.str.findall()str.join()一起使用,将str.get_dummies()groupby().sum一起使用:

l = ['a','b','c']
final=(df['Script'].str.findall('|'.join(l)).str.join('|')
  .str.get_dummies().groupby(df['Speaker']).sum())

           a  b  c
Speaker           
Speaker 1  2  1  1
Speaker 2  2  0  0
Speaker 3  0  1  0
相关问题