database - Excel中的大型DataSet

Excel中的大型DataSet

时间：2016-05-06 10:49:01

标签： database excel dataset pivot-table

我的工作需要分析excel中的大型数据集，这些数据集不断增加（目前我有超过300,000行的300 MB文件）。我的主要问题是处理速度，这非常慢（处理信息超过15分钟）。由于公司政策，我无法在计算机中安装任何东西。有没有办法让我能够阅读大型数据集并生成数据透视表而无需等待很长时间？

提前谢谢

3 个答案:

答案 0 :(得分：0)

您可以使用数据库，也许使用可以从笔上运行的可移植版Workbench。 Excel不是处理大量数据的最佳应用程序。

致以最诚挚的问候，

答案 1 :(得分：0)

如果必须使用Excel，您可能需要考虑将数据集导出为CSV文件。随着数据集的增长，您只需将新数据附加到现有文件即可。

然后，您将创建一个新查询（数据＆gt;新查询＆gt;从文件＆gt;从CSV，Alt + A，PN，F，C。这是用于Excel 2016，我不记得早期版本）。每个查询都可以针对您尝试生成的特定类型的洞察进行专门定制，并且只要您的数据始终按照您每次都不需要重新编写查询的相同方式进行格式化。

此方法的优点是可以为分析的每个步骤提供较小的数据集，从而释放大量内存。这也会使工作簿更小（尽管您的CSV文件最终会变得很大）。

我最近用大量的历史生产记录做了这一点，这些记录有超过250万行数据，对Excel来说太多了。但是通过使用我描述的方法，我可以直接加载到Power Query中，它可以处理数百万行的100个（或者我已经阅读过）。

答案 2 :(得分：0)

你提到你有300,000行加。这不一定是个问题......我的文件中包含的行数比那些多得多，而且速度非常快。

这里的数据行数不是问题。而是在那些行中 - 或者指向那些行 - 这可能会导致文件大小膨胀问题和公式性能不佳。更不用说对这些行应用了什么格式。

我认为你的问题并不是因为原始数据的数量，而是你工作簿中指向那些数据的公式（以及有多少公式）公式有）。您可能也遇到使用范围的问题，这可能会使您的文件大小和重新计算时间膨胀。并且你很可能遇到一个名为volatile公式的问题，每当你更改文件中的任何内容时，都会产生重新计算“雪崩”。这里有一些我写的文章，可以帮助更详细地解释这些内容：

http://chandoo.org/wp/2013/09/29/i-said-your-spreadsheet-is-really-fat-not-real-phat/ http://chandoo.org/wp/2014/03/03/handle-volatile-functions-like-they-are-dynamite/

Excel很可能是这里工作的最佳工具。您可能只是无意中以低效的方式对其进行编程。