Question

我在这里找到了一些类似的问题，但没有一个解决了我的问题。我有一个csv文件，其中一列包含一些长字符串，而其他列包含一些短字符串。当我用

阅读

df = pd.read_csv(file_path, encoding = 'UTF-8')

我知道了

text    colA     colB    colC   colD      Unnamed: 5    Unnamed: 6  Unnamed: 7  Unnamed: 8  Unnamed: 9  Unnamed: 10

但是我在csv文件中只有text colA colB colC colD这些列。

我认为可以删除那些未命名的列很好，但是我发现df.shape是(180106, 11) \ 但是，我的csv文件大约有270000行。我不知道这两个问题是否相互关联。

我试图在read_csv中添加选项quoting=csv.QUOTE_NONE 这给了我

b'Skipping line 17: expected 11 fields, saw 12\nSkipping line 18: expected 11 fields, saw 12\nSkipping line 19: expected 11 fields, saw 12\

这会跳过更多的行，从而使其行数少于180106

我认为这可能与CSV文件的解析方式有关，但我不知道如何完全阅读它。很抱歉，CSV文件中的数据敏感，因此我无法共享示例。

Answer 1

只需将csv文件带到您正在工作的文件名

df=pd.read_csv("file_name")
df.isnull().sum()
df.describe()
df.info()

by为null，则可以获取所有数据列的真值之和 通过描述，您可以获得数据的统计描述 使用信息，您可以获得所有数据详细信息 如果未显示任何数据信息，则说明数据并重新下载