主题:【原创】搭积木 -- 喜欢喝冰茶
说明非常准确,但是诚如你所说的,生物系统的规模和复杂度远远大于一般的化学系统,所以当研究生物系统时,能量函数不仅包括基于物理的能量函数,还包括来自于知识学习的“能量函数”。基于计算成本的考虑,巨大的生物系统很难使用计算化学中所有的能量函数。至于你所举的例子,诸如LJ计算原子间的相互作用,倒是计算生物学中的另外一种方法在使用,但是即使对一个不大的生物系统,运算量都是惊人的。不过行家果然是行家,ab initio方法的关键就在于Potential Function的定义,Casp里有两个组非常厉害,他们的成功之处就是不仅使用了常规的基于物理的function,更重要的是develop了几种基于已知生物知识的Knowledge based potential function。而且在具体使用上,例如氨基酸链的空间位置和移动限制,就有Lattice Model和Non-Lattice Model。在生物计算中,ab initio现在基本上还是属于Coarse-grained Model,至于像计算化学中那种比较精细的模拟,则被另外一种计算生物学方法所采用,不过目的不同。
呵呵,行家说得很对,如果概率能量因子是Boltzmann因子的话,这个方法的学名就是Metropolis-Hastings Monte Carlo方法,典型的(一阶)老马链。原文中只是不想引入太多的数学名称讨人嫌,估计大家对Monte Carlo比较感兴趣,对方法不感兴趣(其实俺也挺喜欢那车的,特别是红色儿的)。
正是因为Potential Function的复杂性,所以这种方法有一个问题就是,没有人知道,它的中间构象对应什么。看起来,大多数人不认为这些中间构象是真实的Protein Folding中的构象,虽然这种方法其实就是生物计算里面Protein Folding的基础。
至于原文的例子嘛,当然用最简单的了,便于了解,毕竟是科技版面,不是学术论文。ab initio的名字嘛,呵呵,这方法就是前两种都fail掉了,没辙了,只好这种了,死马当活马医吧。毕竟即使准确率只有20-30%,也比坐那儿干猜强得多。举个极端的例子,假设我可以猜对每个氨基酸相对于另外一个的相对空间位置的概率是99%(事实上是瞎掰,根本做不到),而这个概率是独立的,那么对于101个氨基酸的小蛋白链,准确率就只有(0.99)^100=36%,如果是201个话,准确率就降至13%,可是200个残基的蛋白真得不大。要是一个含501个残基的蛋白质,这个概率是0.65%,就跟没做一样了。所以发展这种方法还是很有意义滴。
顺便问一句,老兄玩儿什么的?amber, qsar 还是 charmm?
现在做的膜蛋白有4300多个residue,只能拆开了一个domain一个domain的单做,做NMR的最大的一个是35kDa。
EM其实就是电子显微镜,多用于膜蛋白和100KDa以上的大蛋白的结构解析,这个我也没有实践经验,读大学的时候听做这个的教授讲过几节课而已(唉,书都读到狗肚子里去了),据说解析度最好能做到埃米级的(atomic resolution),PDB的情况就不太熟悉了,平常干活用的最多的还是Expasy。
NIU啊,“拍”个清晰的样子,那还不是Nature,Science,Cell随便挑?
其实好的X-ray不也就1~2A,看来电镜挺不错,哪种EM能到这么高的分辨率啊,扫瞄隧道(是叫这名儿吧)?不会是AFM吧。
俺得把小斧子别起来了
当引入降温过程,这个算法确实是simulated annealing。当初Metropolis提出Monte Carlo就是为了把掉在沟里的"蛋白质"给捞出来。后来,Kirkpatric引入了Annealing的思想,经过其他研究人员的不断努力,最终形成了实用版的Monte carlo with simulated annealing。
最近一期的自然杂志上有篇文章用Rosetta做prediction,结果貌似不错。为此E.Dodson还专门写了篇短文捧场。
看看去。计算方法越来越开始被重视了,前几个月的科学上发了篇review文章讲计算的一个方面,貌似很不错的样子。
Baker好像是第一个有效引入生物知识的组,所以他们在Casp上战绩很好,大牛一个。
但一直没找到合适的项目。现在做的主要是protein-protein interaction和protein-DNA interaction, 算是structure prediction的downstream吧。如果能把structure precition和interaction prediction结合起来,用计算方法解决,就非常有意思了。
还是基于学习的?或者二者兼而有之?
加上一些生物知识,比如phylogenetics之类的。
Protein-DNA interaction 比较容易做,因为获得实验数据容易(ChIP-chip, ChIP-Seq),而且motif比较清晰。
Protein-Protein interaction 就比较头痛。
特别是那种试图解决所有问题为目的的,tuning可能还是建挺让人心烦的事情。
说到aa序列时候,常常用domain这个术语
domain到底是如何来发现的。现在可能更多的是序列比对,但是最早的时候是怎么得来的?是单纯根据序列,还是用一些理化手段处理蛋白质,发现一个domain里面的aa能有比较类似的结果?
基于俺这二把刀的理解,一般指结构上的。Wiki上有很多解释,个人的感觉吧,就是一"特有型"的结构单位,介于二级和三级之间的一种东西。像EF构型的钙粒子Binding区,就是两三条alpha-helix组成的,有点儿像用手的虎口夹个球儿似的。最早估计应该是结构方面的实验结果,但是地球人都知道,一级序列决定高级结构,只不过怎么个决定法,咱们就不知道了。所以干这行的最高理想就是给我一些不同形状的砖头,我能搭一个稳定且有用处的大楼(是不是有点老阿的口气)。
原来冰茶兄是科学人啊。
恭喜:你意外获得【西西河通宝】一枚
鲜花已经成功送出。
此次送花为【有效送花赞扬,涨乐善、声望】