我在这里找到了一些类似的问题,但没有一个解决了我的问题。 我有一个csv文件,其中一列包含一些长字符串,而其他列包含一些短字符串。当我用
阅读df = pd.read_csv(file_path, encoding = 'UTF-8')
我知道了
text colA colB colC colD Unnamed: 5 Unnamed: 6 Unnamed: 7 Unnamed: 8 Unnamed: 9 Unnamed: 10
但是我在csv文件中只有text colA colB colC colD
这些列。
我认为可以删除那些未命名的列很好,但是我发现df.shape
是(180106, 11)
\
但是,我的csv文件大约有270000行。
我不知道这两个问题是否相互关联。
我试图在read_csv中添加选项quoting=csv.QUOTE_NONE
这给了我
b'Skipping line 17: expected 11 fields, saw 12\nSkipping line 18: expected 11 fields, saw 12\nSkipping line 19: expected 11 fields, saw 12\
这会跳过更多的行,从而使其行数少于180106
我认为这可能与CSV文件的解析方式有关,但我不知道如何完全阅读它。很抱歉,CSV文件中的数据敏感,因此我无法共享示例。
答案 0 :(得分:0)
只需将csv文件带到您正在工作的文件名
df=pd.read_csv("file_name")
df.isnull().sum()
df.describe()
df.info()
by为null,则可以获取所有数据列的真值之和 通过描述,您可以获得数据的统计描述 使用信息,您可以获得所有数据详细信息 如果未显示任何数据信息,则说明数据并重新下载