Question

我正在尝试为项目生成数据。需要从预定义列表中随机生成数据。从本质上讲，我有真实的数据，但它非常小。为了建立一些分类器（决策树，支持向量机和朴素贝叶斯），我想要产生100,000个观测值。

我是编码的新手（我可以在Matlab和R中做基本的事情）并且最初尝试在Excel中执行此操作，但是，RANDOMA函数生成非常均匀的分布式数据。更具体地说，我使用5个人口统计信息来预测客户将选择哪个零售商，例如零售商A，B或C.人口统计信息列表如下：

1）年龄组（18-24,25-34,35-44,45-54,55 +） 2）性别（男性或女性） 3）收入组（＆lt;£10k，£10k-19.99k，£20k-£29.99k等） 4）地区（伦敦，威尔士，苏格兰，北爱尔兰，西南等） 5）工作类型（全职，兼职，学生等）

当我尝试随机创建100,000个观察值（每个观察值从5个列表中的每个列表中随机选择1个）时，它们之间几乎平均分布。更糟糕的是，我随机分配给零售商（A，B或C）的价值也相等。

我们的想法是将这些随机生成的数据分成训练和测试数据，这样我就可以构建一些模型并测试它们的适用性。

Answer 1

我不知道您数据的典型分布，但以下内容应该可以让您入门。

library(tidyverse)
set.seed(315) # This will create the same data set each run
n.size <- 500

myData <- tibble(
ID = 1:n.size,
VisitDT = lubridate::today()-30 - (runif(n.size) * 100),
IncomeGroup = sample(c("Low", "Medium", "High" ), n.size, prob = c(.7, .25, .05), replace = TRUE),
age = round(rnorm(n = n.size, mean = 52, sd = 10),2),
sex = sample (c('M', 'F'), size = n.size, prob = c(.4, .6), replace = TRUE),
region = sample (c('London', 'Wales', 'Scotland'), size = n.size, prob = c(.4,.3,.2), replace = TRUE),
Treatment = sample(c('No','Yes'), size = n.size, prob = c(.1, .9), replace = TRUE)
)

Answer 2

在Matlab中，此任务的最好朋友将是randsample函数（参考here），它是Statistics Toolbox的一部分。让我们举一个关于您的性别变量的例子：

% possible values (M for male and F for female)
% since it's a qualitative variable, let's use the categorical type
var = categorical({'M' 'F'});

prob = [0.55 0.45]; % corresponding probabilities
n = 100000; % sample size
repl = true; % replacement (true = yes, false = no)

gender = randsample(var,100000,repl,prob);

您可以使用相同的方法生成有关Region和Job的样本。现在让我们用Age变量做另一个例子。

var = 1:100; % possible values (age from 1 to 100 years)
n = 100000; % sample size
repl = true; % replacement (true = yes, false = no)

% the probability argument is not provided, hence the result is equally distributed
age = randsample(var,100000,repl);

由于您希望将Age样本拆分为不同的组，因此带有edge作为第二个参数的histcounts将为您执行此操作：

age_grps = histcounts(age,[0 18 25 35 45 55 100]);

% remove the first column if you want to esclude people from 0 to 17 years
age_grps(1) = [];

您可以使用相同的方法生成收入样本。

据我所知，您主要担心的是变量的均匀分布。我将向您展示如何为randsample函数（prob参数）中的每个可能值设置不同的概率。

尝试从列表生成随机数据

2 个答案: