转换为二进制文件时出现Plink错误:.ped文件的第1行具有比预期更少的标记

时间:2015-07-06 15:02:47

标签: python plink dna-sequence genome

我可以在这里得到一些帮助吗?有没有人在plink(全基因组关联分析工具集)中遇到以下错误,同时从'ped','map'格式转换为二元对应'bed','bim','fam'?我正在使用Linux和plink v1.90b3j。

Error: Line 1 of .ped file has fewer tokens than expected.

我在python脚本中使用此命令在几十个文件上运行它:

plink --file S205 --out S205 --make-bed

对于32个中只有2个文件,在这种情况下,我收到此错误。该文件与所有其他文件完全相同,因为它们之前也都使用相同的脚本完成。所有样本的家庭,父亲,母亲身份和性别都是相同的,正如我所说,等位基因信息的编写方式与所有其他30个工作文件完全相同。

我注意到当我将行结束编码更改为“Windows”时,错误会更改为以下内容。其他好的文件适用于任何类型的行结尾(Unix,Win,Mac)。

Error: Line 4009 of .bim file has fewer tokens than expected.

作为一个例子,我留下了工作* .ped(S209)和非工作(S204)的第一列和最后一列。

S209 S209 0 0 1 1 C C C C T T T T ... G G G G G G 

S204 S204 0 0 1 1 T T T T G G G G ... G G G G C C 

谢谢! 丹尼尔

1 个答案:

答案 0 :(得分:1)

我发现了问题所在。我的“ ped”文件的基因型数量与“ map”文件的数量不完全相同,原因是质量较低。我的脚本是跳过那些SNP,并且不向“ ped”输出任何内容。由于“地图”文件是根据GATK堆积文件位置创建的,因此存在不匹配的情况,因为所有位置都已转移到“地图”文件中。尽管将其保留在此处可能会很有用,但可以将其标记为已解决。