展开超大数据集

时间:2015-01-26 03:23:52

标签: stata expand

如何在不使用expand的情况下在Stata中执行非常大的数据集扩展?在SAS中,通过使用一些代码(我不知道),您可以保留数据集的实际大小(不会使其爆炸),但仍然将其视为扩展它。

我目前的销售数据包含12M +观察值。其中一个变量,即出售的单位,其价值可以在1到1000之间。我需要了解所有可用品牌的单价分布图。我发现我需要进行扩展,以便根据销售频率捕获图表上的真实价格分布。

brand  units_sold    price_per_unit
A       11          15.9876
B       3           17.22727
C       8           15.86364
D       8           17.22727
E       2           17.22727
F       3           17.22727
G       1           17.22727
H       8           18.13636
I       3           18.13636
G       4           17.22727

1 个答案:

答案 0 :(得分:1)

您可以使用指示“重复”价格观察数量的频率权重:

clear

// Fake Data
input str1 brand int units_sold double price_per_unit
    A       11          15.9876
    B       3           17.22727
    C       8           15.86364
    D       8           17.22727
    E       2           17.22727
    F       3           17.22727
    G       1           17.22727
    H       8           18.13636
    I       3           18.13636
    G       4           17.22727
end

// Histogram and summarize with weights
tw hist price_per_unit [fweight=units_sold], frac
sum price_per_unit [fweight=units_sold], detail