将数据导入R

时间:2014-01-11 10:09:38

标签: r

所以我有一组数据here(注意:忽略第一行,第二行的数据集)。总共有311,522个字符。我希望将它导入R,使得每个单个字符在一个单元格中,所以我最终得到一个311,522乘1列向量。但是,当我将数据复制到文本文件然后将其导入R时,每一行都被识别为一个单独的“字符”,而我最终得到一个列向量,其中每个条目是整行而不是单个字符。

我怎样才能解决这个问题?

1 个答案:

答案 0 :(得分:1)

只需使用readLinesstrsplit即可。这在R:

中非常简单
x <- readLines("Your_Actual_URL_Here")

检查是否有垃圾:

head(x)
# [1] ""                                                                                                     
# [2] "<PRE>"                                                                                                
# [3] ">hg19_knownGene_uc003qec.4 range=chr6:133551736-133863257 5'pad=0 3'pad=0 strand=+ repeatMasking=none"
# [4] "AGGGAGAGGAGTATCTTGTCTTGGGGAGGGTGGAGACAGACAACCATTTC"                                                   
# [5] "TGTTTTTGTTATATTGAATTGTACATCTTCCTAGGCATAAATACTCTTCA"                                                   
# [6] "TGATTTCAGGCCAGGTCCAAATGATACCTCCTACATTCCTTCAGCTGGAA"   
tail(x)
# [1] "CTTGCTTTTCACAAAAAGAGATCCAAGAGGAAGAGGTGGAGCAAGCTAGC"
# [2] "AAGAGAGCACCCAAGATGGAAGCTGCAGTCTTTTACCCTAACCTCAGAAG"
# [3] "TGGTGTACCTTTTGCCATATGCCATTTGTCATATAGCTCAAGCATGGTAC"
# [4] "AGTGTGGGAGGGGGCTACATGGGATGTTAATACCAGGATGCAGGGGATCG"
# [5] "CTGGGGCTACTTTGGAGGCTGG"                            
# [6] "</PRE>"  

所以,我们希望从第四行到一个小于向量的长度:

y <- unlist(strsplit(x[4:(length(x)-1)], ""), use.names=FALSE)
head(y)
# [1] "A" "G" "G" "G" "A" "G"
tail(y)
# [1] "G" "G" "C" "T" "G" "G"
length(y)
# [1] 311522
相关问题