Question

我有一个运行脚本，可以打开许多CSV文件（包含系列，因此每个数据只有一列）进行一些计算和提取功能。
这些功能将保存在两个现有的Pandas Dataframe中。

pdDF1.loc[pandas.to_datetime(somestring[-22:-7]),somestring[-7:-4]] = feat1
pdDF2.loc[pandas.to_datetime(somestring[-22:-7]),somestring[-7:-4]] = feat2

对于parralelization，我希望在dask中完成功能计算步骤（已经运行良好）。 dask中的结果是以下类型的两个特征的元组

(dask.array<sqrt, shape=(), dtype=float64, chunksize=()>,
 dask.array<mean_agg-aggregate, shape=(), dtype=float64, chunksize=()>)

我想将第一个元组元素插入到Pandas Dataframe的一列中，将另一个元组的元素插入另一个Dataframe的另一列中（如上面的代码示例）。但总是在插入Pandas Dataframe时，计算了dask结果。

我想要做的是：首先扩展完整的Pandas Dataframe，然后通过一次计算调用评估所有dask条目。怎么办？提前谢谢。

构建未评估的dask表达式的Pandas Dataframe

0 个答案: