python - 提高Python复制大型数据集的效率

我在使用Python进行随机林的实现时遇到了一些麻烦。请记住，我很清楚Python不适用于高效的数字运算。选择的基础更多是希望深入了解Python并获得额外的经验。我想找到一个让它“合理”的解决方案。

话虽如此，我很好奇这里是否有人可以为我的实施提出一些性能改进建议。通过分析器运行它，显然大部分时间都花在执行列表“append”命令和我的数据集拆分操作上。基本上我有一个大型数据集实现为矩阵（而不是列表列表）。我正在使用该数据集来构建决策树，因此我将拆分具有最高信息增益的列。拆分包括创建两个新数据集，其中只有与某些critera匹配的行。通过初始化两个空的lista并向其附加适当的行来生成新数据集。

我事先不知道列表的大小，所以我不能预先分配它们，除非可以预先分配丰富的列表空间但最后更新列表大小（我还没有看到这个在任何地方引用。）

有没有更好的方法在python中处理这个任务？

提高Python复制大型数据集的效率

1 个答案: