在Phyloseq

时间:2017-06-17 09:01:43

标签: r leading-zero tab-delimited-text phyloseq

我正在使用phyloseq包在R中进行微生物组数据分析。此分析的第一步是导入两个文件,一个是.BIOM文件(分类信息),另一个是元数据文件(制表符分隔.txt)。

两个文件都包含147个样本,列在第一列(#SampleID),例如001,002,003 ...... .010,011,...... .147

我可以通过以下命令 -

成功导入BIOM文件
biom_file = "otu_table.biom"
biomot = import_biom(biom_file, parseFunction = parse_taxonomy_greengenes)

但是当我尝试使用此公式导入metada .txt文件时,

map_file = "map2.txt"
bmsd = import_qiime_sample_data(map_file)

它从#SampleID列的示例名称中删除所有前导零。因此,我无法在后续分析步骤中合并这两个文件。 有人可以帮助我,如何在#SampleID列保留样本名称中的前导零。

感谢您的帮助。

.txt输入文件中的数据结构 data structure in .txt input file

1 个答案:

答案 0 :(得分:0)

import_qiime_sample_dat定义为:

import_qiime_sample_dat <- function (mapfilename) 
{
  QiimeMap <- read.table(file = mapfilename, header = TRUE, 
    sep = "\t", comment.char = "")
  rownames(QiimeMap) <- as.character(QiimeMap[, 1])
  return(sample_data(QiimeMap))
}

并且如您所见,使用read.table,它自动将包含数字的列转换为整数/数字,从而删除前导零。

为避免这种情况,您可以指定要在txt -> data.frame转换中使用的所需列类,但遗憾的是import_qiime_sample_dat不允许这样做。

因此,您应手动导入文件:

tmpDF <- read.table(file = mapfilename, header = TRUE, sep = "\t",
                    comment.char = "", colClasses = 'character')
row.names(tmpDF) <- as.character(tmpDF[[1]])
bmsd <- sample_data(tmpDF)