提取特定的子串sql

时间:2015-03-05 15:06:42

标签: sql r substring

我有一个包含16列的数据库。在第16栏中,我有以下文字:

ASN_MAF=0.09;DOMAINS=Pfam_domain:PF00168,Prints_domain:.

我想提取PF00168,所以Pfam_domain:和之间的子串。所有行都具有以下模式:Pfam_domain:and,。

我尝试执行此请求但不起作用:

res = sqldf(" 
SELECT SUBSTRING(v16, CHARINDEX("Pfam_domain:",v16)+1, 10000), CHARINDEX(",",v16)-1 )
FROM GeminiTable_germ
        ")

2 个答案:

答案 0 :(得分:1)

尝试:

SELECT SUBSTRING(v16, CHARINDEX('Pfam_domain:', v16)+12, CHARINDEX         
(',',v16) - (CHARINDEX('Pfam_domain:', v16)+12))

请注意,我在SQL语句中更改了“to” - 这是SQL中的一个重要区别。

答案 1 :(得分:0)

假设我们想要冒号和逗号之间的字符串,instr(v16, ':')+1是冒号后面的字符位置。另外,我们想要的字符串的长度为instr(v16, ',') - instr(v16, ':')-1,因此请使用substr和第二个和第三个参数:

library(sqldf)

GeminiTable_germ <- data.frame(v16 =
  "ASN_MAF=0.09;DOMAINS=Pfam_domain:PF00168,Prints_domain:.")

sqldf("select substr(v16, instr(v16, ':')+1, instr(v16, ',')-instr(v16, ':')-1) v16new 
  from GeminiTable_germ")

,并提供:

   v16new
1 PF00168

我们可以交替地将其分解并写成这样:

field <- function(x, from, to) {
      from_pos <- sprintf("instr(%s, '%s')+1", x, from)
      to_pos <- sprintf("instr(%s, '%s')-%s-2", x, to, from_pos)
      sprintf("substr(%s, %s, %s)", x, from_pos, to_pos)
}
field('v16', ':', ',') # view generated code

fn$sqldf("select `field('v16', ':', ',')` v16new from GeminiTable_germ")