Question

所以我有一组数据here（注意：忽略第一行，第二行的数据集）。总共有311,522个字符。我希望将它导入R，使得每个单个字符在一个单元格中，所以我最终得到一个311,522乘1列向量。但是，当我将数据复制到文本文件然后将其导入R时，每一行都被识别为一个单独的“字符”，而我最终得到一个列向量，其中每个条目是整行而不是单个字符。

我怎样才能解决这个问题？

Answer 1

只需使用readLines和strsplit即可。这在R：

中非常简单

x <- readLines("Your_Actual_URL_Here")

检查是否有垃圾：

head(x)
# [1] ""                                                                                                     
# [2] "<PRE>"                                                                                                
# [3] ">hg19_knownGene_uc003qec.4 range=chr6:133551736-133863257 5'pad=0 3'pad=0 strand=+ repeatMasking=none"
# [4] "AGGGAGAGGAGTATCTTGTCTTGGGGAGGGTGGAGACAGACAACCATTTC"                                                   
# [5] "TGTTTTTGTTATATTGAATTGTACATCTTCCTAGGCATAAATACTCTTCA"                                                   
# [6] "TGATTTCAGGCCAGGTCCAAATGATACCTCCTACATTCCTTCAGCTGGAA"   
tail(x)
# [1] "CTTGCTTTTCACAAAAAGAGATCCAAGAGGAAGAGGTGGAGCAAGCTAGC"
# [2] "AAGAGAGCACCCAAGATGGAAGCTGCAGTCTTTTACCCTAACCTCAGAAG"
# [3] "TGGTGTACCTTTTGCCATATGCCATTTGTCATATAGCTCAAGCATGGTAC"
# [4] "AGTGTGGGAGGGGGCTACATGGGATGTTAATACCAGGATGCAGGGGATCG"
# [5] "CTGGGGCTACTTTGGAGGCTGG"                            
# [6] "</PRE>"

所以，我们希望从第四行到一个小于向量的长度：

y <- unlist(strsplit(x[4:(length(x)-1)], ""), use.names=FALSE)
head(y)
# [1] "A" "G" "G" "G" "A" "G"
tail(y)
# [1] "G" "G" "C" "T" "G" "G"
length(y)
# [1] 311522

将数据导入R

1 个答案: