Question

我正在使用Open Food Facts数据集，该数据集非常混乱。有一个称为数量的列，其中包含有关相应食物数量的信息。条目如下：

365 g (314 ml)  
992 g  
2.46 kg  
0,33 litre  
15.87oz  
250 ml   
1 L    
33 cl

...等等（非常混乱！）我想创建一个名为is_liquid的新列。我的想法是，如果数量字符串包含l或L，则此行中的is_liquid字段应为1，否则为0。这是我尝试过的：我写了这个函数：

def is_liquid(x):
    if x.str.contains('l'):  
        return 1  
    elif x.str.contains('L'):  
        return 1  
    else: return 0

（顺便说一句：如果某种东西以“盎司”衡量，它是液态的吗？）

然后尝试应用它

df['is_liquid'] = df['quantity'].apply(is_liquid)

但是我得到的只是这个错误：

AttributeError: 'str' object has no attribute 'str'

有人可以帮我吗？

Answer 1

将str.contains与case=False一起用作布尔掩码，并通过Series.astype将其转换为integer s：

df['is_liquid']= df['liquids'].str.contains('L', case=False).astype(int)
print(df)
          liquids  is_liquid
0  365 g (314 ml)          1
1           992 g          0
2         2.46 kg          0
3      0,33 litre          1
4         15.87oz          0
5         250 ml           1
6             1 L          1
7           33 cl          1

根据字母“ l”或“ L”是否在另一列的字符串中来创建新列

1 个答案: