导入数据集,其中某些列包含包含空格的字符串

时间:2012-11-25 01:26:11

标签: r dataframe read.table

我有一个类似下面的数据集:

 ID          Message     
  1                .
  2                .
  3     Click_screen
  4     Blank screen
  5                .
  6                .
  7                .

实际数据集有48列和50,000行。

使用 read.table()导入此数据集是有问题的,因为字符串“空白屏幕”,在两个子字符串之间有一个空格。例如,我收到如下错误消息:

  Error in scan(file, what, nmax, sep, dec, quote, skip, nlines, na.strings,  : 
     line 4 did not have 48 elements

我想知道是否有办法绕过R中的这个问题,而不是在Excel中更改原始数据集。

编辑:只是添加,我尝试将填充设置为TRUE,我收到以下错误消息:

 Error in read.table(file.choose(), header = T, fill = T) : 
   duplicate 'row.names' are not allowed

2 个答案:

答案 0 :(得分:1)

这取决于你当地的分隔符,但试试这个

read.table(fileName,fill=TRUE,header=FALSE,sep =';')

答案 1 :(得分:1)

如果文件是以空格分隔的(而不是以制表符分隔的),则可能需要read_fwf以及字段宽度向量。 如果文件是以制表符分隔的,则可能需要read.table(sep ='\ t',...)。

相关问题