Python / Pandas - 导入CSV得到奇怪的错误

时间:2017-08-03 19:12:38

标签: python pandas csv

我有一个csv,它的行看起来像这样:

CNPJ                Razao social                Nome fantasia      Endereco Cidade  Estado  Telefone    Email   Natureza juridica   Atividade primaria  Atividades secundarias  Data de fundacao    Situacao cadastral  Socios e administradores    Capital Social
02.787.185/0001-51  PEREIRA & POHREN LTDA - ME  ESSENCIA FARMACIA DE MANIPULACAO    R DR. LUIZ BASTOS DO PRADO, 1610, CENTRO    GRAVATAI    RS  5134881010      206-2 - SOCIEDADE EMPRESARIA LIMITADA   47.71-7-02 - Comércio varejista de produtos farmacêuticos, com manipulação de fórmulas 47.72-5-00 - Comércio varejista de cosméticos, produtos de perfumaria e de higiene pessoal|47.73-3-00 - Comércio varejista de artigos médicos e ortopédicos|47.71-7-04 - Comércio varejista de medicamentos veterinários 1998-10-09  ATIVA   JOSE ANTONIO POHREN - Sócio-Administrador | SABRINA FRANCISCO PEREIRA - Sócio-Administrador

(请不要考虑标题格式,我无法在stackoverflow上调整它,如果我尝试调整它会变得一团糟)

每个列由制表符分隔。如果我在Excel上打开它,它工作正常,它看起来应该看起来如何,完全采用与上面例子相同的格式。

我使用此代码将其导入pandas:

df=pd.read_csv("/file.csv",sep='\t')

它读取文件,但有些行变得奇怪。例如,我发现了一行“R DR.LUIZ BASTOS DO PRADO”(你可以在上面的行中看到)。从技术上讲,它应该看起来与上面完全相同,但它看起来像这样:

CNPJ                                              NaN
Razao social                R DR LUIZ BASTOS DO PRADO
Nome fantasia                                     NaN
Endereco                                          NaN
Cidade                                            NaN
Estado                                            NaN
Telefone                                          NaN
Email                                             NaN
Natureza juridica                                 NaN
Atividade primaria                                NaN
Atividades secundarias                            NaN
Data de fundacao                                  NaN
Situacao cadastral                                NaN
Socios e administradores                          NaN
Capital Social                                    NaN
Name: 291, dtype: object

我注意到,大熊猫似乎在没有完成所有列的行中感到困惑。

我也注意到这个“R DR.LUIZ BASTOS DO PRADO”应该在220行而不是291. 291应该是其他完全不同的东西。

我经常使用read_csv,我从未见过这种问题。 有谁知道这里会发生什么?

0 个答案:

没有答案