正则表达式 - 找到字符串的一部分

时间:2012-07-16 17:49:28

标签: regex

我有这种类型的数据(重复多次):

@@@FFDFFHHHHHJJFFHGIJJJJGI   
@M00332:5:000000000-A0TVJ:1:1:13498:26189 2:N:0:1   
ACCACAGCCGCTGCCCATTTGCATAA 
+

使用regexp我正在尝试选择包含特定字符串cagccgctgcccatttg的所有行。 我是一个正则表达式的新手,所以我试过这个:\w{3,}(cagccgctgcccatttg)\w{3,}

非常感谢任何帮助。

干杯 西蒙

1 个答案:

答案 0 :(得分:3)

据我所知,您希望收集包含单个子序列的所有序列。我不知道你正在使用什么环境,但这应该以非常简单的方式返回你正在寻找的任何序列。

([ACGT]{3,}CAGCCGCTGCCCATTTG[ACGT]{3,})

括号是一个字符类,这意味着它匹配任何单个字符。你不想匹配\ w,你只想匹配一个角色,如果它是你正在寻找的4个角色之一。此外,您可以使用parens覆盖整个正则表达式以获取整个匹配。