熊猫read_csv创建结尾的未命名列,而不是在整个csv文件中读取

时间:2020-05-09 01:48:54

标签: python pandas csv

我在这里找到了一些类似的问题,但没有一个解决了我的问题。 我有一个csv文件,其中一列包含一些长字符串,而其他列包含一些短字符串。当我用

阅读
df = pd.read_csv(file_path, encoding = 'UTF-8')

我知道了

text    colA     colB    colC   colD      Unnamed: 5    Unnamed: 6  Unnamed: 7  Unnamed: 8  Unnamed: 9  Unnamed: 10

但是我在csv文件中只有text colA colB colC colD这些列。

我认为可以删除那些未命名的列很好,但是我发现df.shape(180106, 11) \ 但是,我的csv文件大约有270000行。 我不知道这两个问题是否相互关联。

我试图在read_csv中添加选项quoting=csv.QUOTE_NONE 这给了我

b'Skipping line 17: expected 11 fields, saw 12\nSkipping line 18: expected 11 fields, saw 12\nSkipping line 19: expected 11 fields, saw 12\

这会跳过更多的行,从而使其行数少于180106

我认为这可能与CSV文件的解析方式有关,但我不知道如何完全阅读它。很抱歉,CSV文件中的数据敏感,因此我无法共享示例。

1 个答案:

答案 0 :(得分:0)

只需将csv文件带到您正在工作的文件名

df=pd.read_csv("file_name")
df.isnull().sum()
df.describe()
df.info()

by为null,则可以获取所有数据列的真值之和 通过描述,您可以获得数据的统计描述 使用信息,您可以获得所有数据详细信息 如果未显示任何数据信息,则说明数据并重新下载

相关问题