学术报告：二代测序数据分析----数学与系统科学研究院数学研究所

学术活动

当前位置：首页 > 学术活动 > 研究室研讨班报告

中科院数学与系统科学研究院

数学研究所

中科院管理、决策和信息系统重点实验室

学术报告会

报告人：王飞副教授 (复旦大学)

题目：二代测序数据分析

时间：2017.09.27（星期三），15:00-16:00

地点：数学院南楼N205室

摘要：

测序技术的飞速发展使得测序价格呈雪崩式下降、测序数据呈爆发式增长，测序数据的有效、高效分析日益重要。

通常，测序平台产生的是含有部分DNA信息的短片段，称作读段。基因组数据分析的第一步就是要把读段比对到参考基因组，找出每个读段在基因组的具体位置。我们提出一种基于种子投票的策略，为参考基因组建立哈希表，使得读段的子片段（称为种子）能够在常量时间内定位在参考基因组上的位置。该方法的精准度和主流方法相当，处理速度提升了6-7倍。

二代测序数据分析的第二步是辨识出真实的变异和基因型。我们认为测序数据中存在的变异和dbSNP中的变异在特性上很相似。基于这个假设，利用机器学习的思想，训练一颗决策树判读样本中的可信变异。和当前最常用的方法相比，该方法在准确度上相似或者更佳，运行速度快了至少３倍。

和全基因组测序相比，靶向捕获测序可以更低的成本产生更大的覆盖度、更深的测序深度和更好的测序质量。然而，从靶向测序数据中比较容易识别出单核苷酸变体（SNV）和小片段的插入缺失（Indels），大片段的拷贝数变异（CNV）比较难于被发现。我们使用带有惩罚的最大似然估计来评估CNV边界和拷贝数比率，提出了从靶向测序数据中检测 CNV 的方法-SeqCNV。SeqCNV具有较好鲁棒性、灵敏度和特异性。

简历：

王飞，博士，上海市智能信息处理重点实验室副主任，复旦大学计算机科学与技术学院副教授。研究方向为数据挖掘和生物大数据分析,近年来集中于二代测序的数据分析、基因组和代谢组等多组学数据融合等方面。研究目标是为遗传疾病和复杂疾病的致病机理、诊断和治疗提供帮助。

附件

相关文档

地址：北京市海淀区中关村东路55号邮编：100190
联系电话：86-10-82541600 传真：86-10-82541591 E-mail：mathlab@math.ac.cn