光熙论坛第739期:基于隐马尔科夫模型的蛋白质多序列比对方法研究

题目:基于隐马尔科夫模型的蛋白质多序列比对方法研究

主讲人:詹青,哈工大计算机学院博士研究生

时间:2018年10月24 18:00-19:00

地点:哈尔滨工业大学科学园2E栋307

研究方向:生物信息学

内容简介

蛋白质多序列比对问题是生物信息学中基本的问题之一。通过多序列比对, 可以挖掘出多个序列间的保守区间与结构信息。它是许多问题的基础, 如片断组装、基因发现、构建进化树、蛋白质家族构建、蛋白质相互作用预测等。多序列比对方法大多为渐进式比对,在其三个步骤——双序列比对、引导树构建、序列谱(Profile)渐进比对中,隐马尔科夫模型是常用到的方法。本研究针对当前蛋白质多序列比对方法的不足,提出更高效准确的多序列比对方法。本研究的主要内容包括:

1)针对序列比对中残基对得分的确定,本文提出了一种结合粒子群优化的隐马模型与配分函数的方法,计算后验概率。

2)针对序列比对中引导树的构建,本文提出了一种自适应的方法,根据蛋白质家族序列的同一度(identity)高中低的不同,采用不同的方法,最终构建引导树。

3)针对完成多序列初步比对后的迭代优化,本文提出了一种分块比对的方法,根据蛋白质不同的保守区域,对于比对结果分块重新进行比对。

4)针对蛋白质多序列比对,综合以上方法,本文构建了一个全新的软件系统。