中科院数学与系统科学研究院

数学研究所

中科院管理、决策和信息系统重点实验室

学术报告会

 

报告人王飞 副教授   (复旦大学)

  二代测序数据分析

  2017.09.27(星期三),15:00-16:00

    点:数学院南楼N205

摘要:

测序技术的飞速发展使得测序价格呈雪崩式下降、测序数据呈爆发式增长,测序数据的有效、高效分析日益重要。

通常,测序平台产生的是含有部分DNA信息的短片段,称作读段。基因组数据分析的第一步就是要把读段比对到参考基因组,找出每个读段在基因组的具体位置。我们提出一种基于种子投票的策略,为参考基因组建立哈希表,使得读段的子片段(称为种子)能够在常量时间内定位在参考基因组上的位置。该方法的精准度和主流方法相当,处理速度提升了6-7倍。

二代测序数据分析的第二步是辨识出真实的变异和基因型。我们认为测序数据中存在的变异和dbSNP中的变异在特性上很相似。基于这个假设,利用机器学习的思想,训练一颗决策树判读样本中的可信变异。和当前最常用的方法相比,该方法在准确度上相似或者更佳,运行速度快了至少3倍。

和全基因组测序相比,靶向捕获测序可以更低的成本产生更大的覆盖度、更深的测序深度和更好的测序质量。然而,从靶向测序数据中比较容易识别出单核苷酸变体(SNV)和小片段的插入缺失(Indels),大片段的拷贝数变异(CNV)比较难于被发现。我们使用带有惩罚的最大似然估计来评估CNV边界和拷贝数比率,提出了从靶向测序数据中检测 CNV 的方法-SeqCNVSeqCNV具有较好鲁棒性、灵敏度和特异性。

简历:

王飞,博士,上海市智能信息处理重点实验室副主任,复旦大学计算机科学与技术学院副教授。研究方向为数据挖掘和生物大数据分析,近年来集中于二代测序的数据分析、基因组和代谢组等多组学数据融合等方面。研究目标是为遗传疾病和复杂疾病的致病机理、诊断和治疗提供帮助。

附件
相关文档