将Excel转换为镶木地板文件

时间:2020-10-01 09:15:48

标签: python excel pandas dataframe parquet

我有一个很大的excel文件,其中一些列包含带有长句子的自由文本数据。 我必须将其转换为实木复合地板格式以提取到仓库中。 我无法将其转换为csv,因为那些句子较长的列带有逗号。制表符分隔也不起作用。

这里有任何建议,如何使用python将这种类型的excel文件转换为镶木地板格式?

谢谢!!

3 个答案:

答案 0 :(得分:0)

可能可以将其转换为由;而非,代替的csv。

如果没有,您可以尝试将其读入熊猫,然后导出到镶木地板中。

https://www.geeksforgeeks.org/convert-excel-to-csv-in-python/

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.to_parquet.html

答案 1 :(得分:0)

首先将reading Excel插入数据框。
接下来convert将数据帧插入木地板

答案 2 :(得分:0)

您可以通过 ODBC 尝试路由。不过,这可能只适用于 Windows 用户。您可以在此处下载 Microsoft Excel ODBC 驱动程序:https://www.microsoft.com/en-us/download/details.aspx?id=13255

有一个 python 脚本将 ODBC 数据源的内容写入 parquet: https://github.com/rondunn/odbc2parquet/blob/master/odbc2parquet.py

如果您不关心涉及 Python,您还可以使用 odbc2parquet 命令行工具 (https://github.com/pacman82/odbc2parquet)。

odbc2parquet -vvv query -c "Driver={Microsoft Excel Driver (*.xls, *.xlsx, *.xlsm, *.xlsb)};Dbq=./test.xls;" test.par "SELECT * FROM [Sheet1$]"

在许多 Windows 系统上,您会发现预装了 32 位 Excel ODBC 驱动程序。如果您想使用它,您必须确保使用命令行工具的 32Bit 变体。