使用熊猫清理海量数据集

时间:2019-03-07 23:52:14

标签: python pandas numpy

所以这里有点新手,但是我有这个数据集却很难转换,我想在下周将它返回给我们的家伙,我已经接近完成了-我想。

我面临的问题是将数据放入一个数据帧。当我运行代码并从for循环中打印时,我可以看到需要串联的值块。但是,我找不到存储所有值的方法。当我这样做的时候,我只会得到一大块。

 import pandas as pd
 import numpy as np


 df = pd.read_excel("DATA,h",
 header = None,
 dtype = object)

 ranges = []
 last_index = 0 


def clean(df12,df13):
    df12 = df12.T
    df13 = df13.T
    value1 = pd.DataFrame(df12)
    value2 = pd.DataFrame(df13)
    final_value = value1.append(value2)
return(final_value)


for i, row in df.iterrows():
    rows = df.iloc[i]
    if rows[9] == 'Member' or rows[9] == 'Non-Pledging Member':
        if last_index == 0:
            last_index = i
        else:
            ranges.append([last_index, i])
            last_index = i
        df44 = beans(row,row)

print(df44)

当我从for循环中打印行时,会在终端中获得所需的所有值,但是如果我将其存储在一个值或数据框中,则只能看到这些数据块之一。有人知道发生了什么吗?

数据:其中有15k

Proctor, Terry      206-915-3555                    Member  
620 33rd Ave E                                  16283
Seattle, WA 98112                                   

我要拍摄什么:

 Proctor, Terry, 620 33rd Ave E, Seattle, WA, 98112, 206-915-3555, Member

0 个答案:

没有答案