将密码子(基数64)转换为基数10

时间:2012-07-06 06:54:33

标签: python numbers

在2012年7月的“Mensa Bulletin”中,有一篇题为“数字大脑”的文章。在其中,作者将人脑与base64计算联系起来。这是一篇相当有趣且有趣的文章,最后提示。所述提示要求读者将Cytosine Guanine Adenine Guanine Adenine Guanine转换为基数10,使用Cytosine Cytosine Guanine Cytosine Adenine Guanine等于2011的事实(提到的第一个密码子组是cgagag,简称第二个是ccgcag)。您必须使用文章中的表格将基数为64的数字转换为基数10,该表格以正确的顺序显示所有可能的密码子,其中aug = 0,uuu = 1,uuc = 2,...,gga == 61,ggg = 62,uag = 63.我决定放手一搏,决定编写一个python程序,将密码子数转换为10号基数,将10号基数转换为密码子。在为两者编写快速算法后,我运行它。该程序没有错误,并为我的数字弹出密码子,反之亦然。但是,他们是错误的数字!我似乎无法看出出现了什么问题,并且非常感谢任何帮助。

不用多说,代码:

codons = ['aug', 'uuu', 'uuc', 'uua', 'uug', 'ucu', 'ucc', 'uca', 'ucg', 'uau', 'uac', 'uaa', 'ugu', 'ugc', 'uga', 'ugg', 'cuu', 'cuc', 'cua', 'cug', 'ccu', 'ccc', 'cca', 'ccg', 'cau', 'cac', 'caa', 'cag', 'cgu', 'cgc', 'cga', 'cgg', 'auu', 'auc', 'aua', 'acu', 'acc', 'aca', 'acg', 'aau', 'aac', 'aaa', 'aag', 'agu', 'agc', 'aga', 'agg', 'guu', 'guc', 'gua', 'gug', 'gcu', 'gcc', 'gca', 'gcg', 'gau', 'gac', 'gaa', 'gag', 'ggu', 'ggc', 'gga', 'ggg', 'uag' ]

def codonNumToBase10 ( codonValue ) :

    numberOfChars = len( codonValue )

    # check to see if contains sets of threes
    if len( codonValue ) % 3 != 0 :
        return -1

    # check to see if it contains the correct characters
    for i in range(0, numberOfChars ) :
        if codonValue[i] != 'a' :
            if codonValue[i] != 'u' :
                if codonValue[i] != 'c' :
                    if codonValue[i] != 'g' :
                        return -2

    # populate an array with decimal versions of each codon in the input
    codonNumbers = []
    base10Value = 0
    numberOfCodons = int(numberOfChars / 3 )
    for i in range(0, numberOfCodons) :
        charVal = codonValue[ 0 + (i*3) ] + codonValue[ 1 + (i*3) ] + codonValue[ 2 + (i*3) ]
        val = 0
        for j in codons :
            if j == charVal :
                codonNumbers.append( val )
                break
            val += 1
        base10Value += ( pow( 64, numberOfCodons - i - 1 ) ) * codonNumbers[i]

    return base10Value

def base10ToCodonNum ( number ) :
    codonNumber = ''
    hitZeroCount = 0
    while( 1==1 ) :
        val = number % 64
        number = int( number / 64 )
        codonNumber = codons[val] + codonNumber
        if number == 0 :
            if hitZeroCount > 0:
                break
            hitZeroCount += 1
    return codonNumber

val_2011 = 'ccgcag'
val_unknown = 'cgagag'

print( base10ToCodonNum( codonNumToBase10( val_2011 ) ), '::', codonNumToBase10( val_2011 ) )
print( base10ToCodonNum( codonNumToBase10( val_unknown ) ), '::', codonNumToBase10( val_unknown ) )

编辑1:我得到的值是ccgcag为1499,cgagag是1978。

编辑2:感谢Ashwini Chaudhary修复了base10ToCodonNum功能。

3 个答案:

答案 0 :(得分:2)

我无法关注你的代码,所以我做了另一个实现,但我得到了相同的结果:

CODONS = [
    'aug', 'uuu', 'uuc', 'uua', 'uug', 'ucu', 'ucc', 'uca',
    'ucg', 'uau', 'uac', 'uaa', 'ugu', 'ugc', 'uga', 'ugg',
    'uuu', 'cuc', 'cua', 'cug', 'ccu', 'ccc', 'cca', 'ccg',
    'cau', 'cac', 'caa', 'cag', 'cgu', 'cgc', 'cga', 'cgg',
    'auu', 'auc', 'aua', 'acu', 'acc', 'aca', 'acg', 'aau',
    'aac', 'aaa', 'aag', 'agu', 'agc', 'aga', 'agg', 'guu',
    'guc', 'gua', 'gug', 'gcu', 'gcc', 'gca', 'gcg', 'gau',
    'gac', 'gaa', 'gag', 'ggu', 'ggc', 'gga', 'ggg', 'uag',
]

def codon2decimal(s):
    if len(s) % 3 != 0:
        raise ValueError("%s doesn't look like a codon number." % s)
    digits = reversed([ s[i*3:i*3+3] for i in range(len(s)/3) ])
    val = 0
    for i, digit in enumerate(digits):
        if digit not in CODONS:
            raise ValueError("invalid sequence: %s." % digit)
        val += CODONS.index(digit) * 64 ** i
    return val

def main():
    for number in ('cggcag', 'ccgcag', 'cgagag', 'auguuuuuc'):
        print number, ':', codon2decimal(number)

if __name__ == '__main__':
    main()

结果:

cggcag : 2011
ccgcag : 1499
cgagag : 1978
auguuuuuc : 66

答案 1 :(得分:1)

def codon2dec(x):
  codons = ['aug', 'uuu', 'uuc', 'uua', 'uug', 'ucu', 'ucc', 'uca', 'ucg', 'uau', 'uac', 'uaa', 'ugu', 'ugc', 'uga', 'ugg', 'uuu', 'cuc', 'cua', 'cug', 'ccu', 'ccc', 'cca', 'ccg', 'cau', 'cac', 'caa', 'cag', 'cgu', 'cgc', 'cga', 'cgg', 'auu', 'auc', 'aua', 'acu', 'acc', 'aca', 'acg', 'aau', 'aac', 'aaa', 'aag', 'agu', 'agc', 'aga', 'agg', 'guu', 'guc', 'gua', 'gug', 'gcu', 'gcc', 'gca', 'gcg', 'gau', 'gac', 'gaa', 'gag', 'ggu', 'ggc', 'gga', 'ggg', 'uag' ]
  if len(x)%3==0:
      x=[''.join((x[i],x[i+1],x[i+2])) for i in range(0,len(x),3)]
      try:
          return sum(codons.index(y)*(64**(len(x)-1-i)) for i,y in enumerate(x))

      except ValueError:
          return 'invalid input'


  else:
      return 'invalid input'

<强>输出:

>>> codon2dec('cgagag')
1978
>>> codon2dec('ccgcag')
1499

答案 2 :(得分:1)

您的代码确实实际转换为base-64和从base-64转换。我怀疑你没有按照与问题完全相同的顺序来定义密码子。

根据您为密码子提供的顺序:

'ccgcag' = codons.index('ccg') * 64 + codons.index('cag') = 23 * 64 + 27 = 1499

在数学上正确,使用您提供的替换。为了获得2011年,您必须输入cggcag - 所以,您确定以完全相同的顺序复制它们吗?