Question

我下载了一个文件，该文件的每一列都包含一个项目或csv格式的空白单元格。当我编写代码时：

groceries_data = groceries_data <- read.transactions("groceries.csv")

令人惊讶的是我看到了结果：

summary(groceries_data)
transactions as itemMatrix in sparse format with
 9835 rows (elements/itemsets/transactions) and
 8146 columns (items) and a density of 0.0004401248

但是当我编写代码

groceries_data = read.transactions("groceries.csv",sep=",")

那么结果是：

summary(groceries_data)
transactions as itemMatrix in sparse format with
 9835 rows (elements/itemsets/transactions) and
 169 columns (items) and a density of 0.02609146

这是本书的正确结果，但从逻辑上讲，它应该与第一个命令一起使用，而不是第二个命令。怎么了？

Answer 1

默认情况下，该功能不适用于CSV。请参见help(read.transactions)-有关其声明的sep参数：

一个字符串，指定如何在数据文件中分隔字段。默认值（“”）在空白处分割。

因此，除非您告诉它以逗号分隔，否则它将在每个空格处分隔。如果您在许多产品名称中都留有空格，那么每个产品名称中的每个单词都会变成一列。

通过将sep参数指定为逗号，可以根据需要正确导入CSV文件。

从数据集中读取项目

1 个答案: