python - 对于混合类型数据，Pandas中数据存储的最佳选择是什么？

我正在处理一个存储为ndjson的大型数据集，其中每行数据都是一个json对象，我逐行读取并使用pandas json_normalise()展平每一行并保存它在列表中作为数据帧，然后我将此列表连接起来。

整个过程在大功率机器上需要约2个小时，所以我想保存结果，所以我不必重复它，但是，我尝试过使用to_hdfs和to_parquet，但两者都失败了，我相信它是由于大多数列具有混合数据类型，其中可能存在字符串，浮点数和整数，这是混乱数据收集系统不可避免的后果。

在清理这些未经处理的数据之前，最合适的方法是什么？