从数据集中读取项目

时间:2018-09-23 20:58:42

标签: r rstudio

我下载了一个文件,该文件的每一列都包含一个项目或csv格式的空白单元格。当我编写代码时:

groceries_data = groceries_data <- read.transactions("groceries.csv")

令人惊讶的是我看到了结果:

summary(groceries_data)
transactions as itemMatrix in sparse format with
 9835 rows (elements/itemsets/transactions) and
 8146 columns (items) and a density of 0.0004401248

但是当我编写代码

groceries_data = read.transactions("groceries.csv",sep=",")

那么结果是:

summary(groceries_data)
transactions as itemMatrix in sparse format with
 9835 rows (elements/itemsets/transactions) and
 169 columns (items) and a density of 0.02609146 

这是本书的正确结果,但从逻辑上讲,它应该与第一个命令一起使用,而不是第二个命令。怎么了?

1 个答案:

答案 0 :(得分:0)

默认情况下,该功能不适用于CSV。请参见help(read.transactions)-有关其声明的sep参数:

  

一个字符串,指定如何在数据文件中分隔字段。默认值(“”)在空白处分割。

因此,除非您告诉它以逗号分隔,否则它将在每个空格处分隔。如果您在许多产品名称中都留有空格,那么每个产品名称中的每个单词都会变成一列。

通过将sep参数指定为逗号,可以根据需要正确导入CSV文件。

相关问题