淘客熙熙

主题:【原创】搭积木 -- 喜欢喝冰茶

共:💬37 🌺69
分页树展主题 · 全看首页 上页
/ 3
下页 末页
                • 家园 我觉得在生物领域很难有普适的计算模型

                  ML主要是两方面:feature selection和classification。 我的观点是,与其花很多精力在classification上,不如花精力在feature selection上。从生化知识入手强化feature,这是王道。当然在写文章时可以用些跟别人不同的classification来增加novelty,但大家都心知肚明卖点其实在feature上。

                  所以,以前我跟别人说我是做bioinformatics的,现在我说是做computational biology的。就知识结构而言,我算是biologist了。说实话现在做machine learning在理论上很难突破了,如果没有点interdecipline的东西,这碗饭不容易吃。

                  • 家园 看来老兄是科班儿出身的了,握手

                    只有数学或物理背景的哥们儿喜欢用一组方程概括生物现象,好像生物里能用数学非常精确描述的不多,俺就知道酶动力学和计算神经

                    呵呵,ML算是Bioinfo的一个主要方向,以俺这二把刀觉得吧,你老兄是说在点子上了,靠简单的发展算法,诸如如何改进那些tree了,boosting了,或者SVM了,甚至于BN或者NN了,俺也觉得太难了。既然是Biosomething,怎能舍本求末涅?

                    老兄找找基于机构的feature,有些也在做这方面的Binding prediction,兴许有感兴趣的东西。

      • 家园 这倒没注意

        看看去。计算方法越来越开始被重视了,前几个月的科学上发了篇review文章讲计算的一个方面,貌似很不错的样子。

    • 家园 ab initio

      ab initio似乎是拉丁文,在计算化学里是从头计算法的意思,也就是说从最基本的薛定谔方程算起,有点终极武器的意思。不过在大多数体系里面直接求解这个方程根本就是不可能完成的任务,于是就引入了各种近似,密度泛函之类的。虽然有这种种近似,但它们还是以基本的量子力学方程为基础的,所以还叫“从头计算”。与之相对应的是基于各种势函数的计算,比如就用莱纳德琼斯势来*近似*计算两个原子间的相互作用,而不再通过量子力学求解来计算。各种势函数大大减少了实际体系需要的计算量,使得很多问题的*近似*求解成为可能,但是势函数的形式和所用参数直接决定了计算结果的准确/近似程度,所以人们花了很大的精力来发展各种势函数,其中有很多都是用于计算生物学的。这是因为计算生物学研究对象的规模和复杂程度远远超过计算化学和计算材料学,所以往往更需要借助于势函数。原文中提到的模型:

      每个氨基酸用一个点表示,之间用线相连,这些点可以移动,然后定义一些能量函数,例如我们都知道同性电荷相斥,所以两个都带正电的不直接相连的氨基酸不太愿意呆在一起,那么就可以定义如果两个同性电荷靠在一起,就设成一个正数,而异性电荷则设成负值
      属于非常简陋非常原始的势函数,这样的计算在生物里叫做ab initio,让我感到有些惊讶,所以啰嗦这么多说说我这个非生物人士对ab initio的理解。

      另外,

      就是当能量增加的时候,不是简单的舍弃这种构象,而是引入一个概率能量因子,它给新老状态的能量相关,然后随即产生一个概率,比较它们以决定取舍,从而降低陷在local minimum的概率。
      应该就是说的Monte Carlo方法吧

      • 家园 应当是模拟退火算法
        • 家园 呵呵,又一行家出手

          俺得把小斧子别起来了

          当引入降温过程,这个算法确实是simulated annealing。当初Metropolis提出Monte Carlo就是为了把掉在沟里的"蛋白质"给捞出来。后来,Kirkpatric引入了Annealing的思想,经过其他研究人员的不断努力,最终形成了实用版的Monte carlo with simulated annealing。

      • 家园 果然是行家,俺的把小斧头收起来了

        说明非常准确,但是诚如你所说的,生物系统的规模和复杂度远远大于一般的化学系统,所以当研究生物系统时,能量函数不仅包括基于物理的能量函数,还包括来自于知识学习的“能量函数”。基于计算成本的考虑,巨大的生物系统很难使用计算化学中所有的能量函数。至于你所举的例子,诸如LJ计算原子间的相互作用,倒是计算生物学中的另外一种方法在使用,但是即使对一个不大的生物系统,运算量都是惊人的。不过行家果然是行家,ab initio方法的关键就在于Potential Function的定义,Casp里有两个组非常厉害,他们的成功之处就是不仅使用了常规的基于物理的function,更重要的是develop了几种基于已知生物知识的Knowledge based potential function。而且在具体使用上,例如氨基酸链的空间位置和移动限制,就有Lattice Model和Non-Lattice Model。在生物计算中,ab initio现在基本上还是属于Coarse-grained Model,至于像计算化学中那种比较精细的模拟,则被另外一种计算生物学方法所采用,不过目的不同。

        呵呵,行家说得很对,如果概率能量因子是Boltzmann因子的话,这个方法的学名就是Metropolis-Hastings Monte Carlo方法,典型的(一阶)老马链。原文中只是不想引入太多的数学名称讨人嫌,估计大家对Monte Carlo比较感兴趣,对方法不感兴趣(其实俺也挺喜欢那车的,特别是红色儿的)。

        正是因为Potential Function的复杂性,所以这种方法有一个问题就是,没有人知道,它的中间构象对应什么。看起来,大多数人不认为这些中间构象是真实的Protein Folding中的构象,虽然这种方法其实就是生物计算里面Protein Folding的基础。

        至于原文的例子嘛,当然用最简单的了,便于了解,毕竟是科技版面,不是学术论文。ab initio的名字嘛,呵呵,这方法就是前两种都fail掉了,没辙了,只好这种了,死马当活马医吧。毕竟即使准确率只有20-30%,也比坐那儿干猜强得多。举个极端的例子,假设我可以猜对每个氨基酸相对于另外一个的相对空间位置的概率是99%(事实上是瞎掰,根本做不到),而这个概率是独立的,那么对于101个氨基酸的小蛋白链,准确率就只有(0.99)^100=36%,如果是201个话,准确率就降至13%,可是200个残基的蛋白真得不大。要是一个含501个残基的蛋白质,这个概率是0.65%,就跟没做一样了。所以发展这种方法还是很有意义滴

        顺便问一句,老兄玩儿什么的?amber, qsar 还是 charmm?

    • 家园 ft

      论文干的就是这个“对齐”

      事实上,给定一个序列,在数据库里面找相似程度高的程序(BLAST)已经相当成熟了。

      问题复杂在序列里面不是每个氨基酸的“价值”都相同,有的有生化作用,这可能是生物学家比较感兴趣的地方。另有些只有结构上的作用(类似骨架?)这部分即使找出很相似的也没有太多的用途。

      当然,我是学计算机的,生物懂得不多,上面说法可能有错,呵呵。

      • ft
        家园 看来老兄是Senior了

        老兄做序列的还是结构的alignment的?呵呵,blast就是一工具,这年头N多人拿那玩意儿用用就号称做计算了。

        你这个要鉴别出价值来,如果是基于sequence analysis的话,恐怕要用ML了,不过现阶段还是比较sensitive的。

        • 家园 不敢

          做的事多序列对齐

          想法是先用某些motif数据库(比如PROSITE)查询标记序列区域,然后在alignment中提高这些区域的重要性

          现在已经不干了,觉得这个领域还是得学生物的人来做。呵呵。

          • 不敢
            家园 原来老兄是做Multi的

            老兄是改进ScoreMatrix还是别的方法?

            觉得这个领域还是得学生物的人来做

            Good point,真正做Bioinfo的都是开发新的方法和算法的,但又不能纯计算背景的人来做,有时候会做出些完美的数学算法却没有任何生物学意义的玩意儿。

    • 家园 握手

      现在干的就是这猜谜的活

      NMR的上限在40KDa左右,另外除了X-ray和NMR,对于超大的蛋白质,EM也不错

      • 握手
        家园 哎哟,俺又乱挥斧头了

        大鹏兄是做计算的还是结构的?俺这二把刀属于连做带猜大多都是纸上谈兵。300-400 residues其实也不小了。

        这个EM能做多大的?什么时候给俺讲讲?PDB里面来自于这个技术的大约占多少?

        • 家园 不敢不敢,俺也就是一刚入门的半吊子

          现在做的膜蛋白有4300多个residue,只能拆开了一个domain一个domain的单做,做NMR的最大的一个是35kDa。

          EM其实就是电子显微镜,多用于膜蛋白和100KDa以上的大蛋白的结构解析,这个我也没有实践经验,读大学的时候听做这个的教授讲过几节课而已(唉,书都读到狗肚子里去了),据说解析度最好能做到埃米级的(atomic resolution),PDB的情况就不太熟悉了,平常干活用的最多的还是Expasy。

          • 家园 原来老兄是做结构的

            NIU啊,“拍”个清晰的样子,那还不是Nature,Science,Cell随便挑?

            其实好的X-ray不也就1~2A,看来电镜挺不错,哪种EM能到这么高的分辨率啊,扫瞄隧道(是叫这名儿吧)?不会是AFM吧

分页树展主题 · 全看首页 上页
/ 3
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河