“清华大学生物信息学实验室是中国顶尖的生物信息学研究机构,拥有世界领先的技术和科研人才;星舰基因是中国首家集人工智能技术与创客精神于一体的互联网基因检测公司,此次双方的合作将促成国内首个人工智能深度学习技术在基因组学领域的应用。”星舰基因ceo庄满生如是说。
目前国内的基因检测行业普遍开始引入基因大数据和精准医疗的概念,即通过收集到海量的dna信息,经过归纳计算,就有可能出这些特征的发生规律,甚至出疾病发生规律。理论上看这对未来精准医疗的贡献是巨大的。
可实际应用中却存在一些问题人类发展到今天,dna突变总量数以亿计,现有技术只对突变频率大于1%的部分进行研究解析。这本身就需要巨大的患者样本量才能统计出与正常人群体突变基因的差异。对于突变频率小于1%的部分,群体数量仍然是庞大的,但由于没有统计学意义,在现有疾病分析中就被自动屏蔽掉了。基因检测如果缺少对这部分突变的深入分析,可以说精准医疗只能被限制在狭小的范围之内。并且生命是多维度的、系统性的过程,除了在dna基因组层面外,我们将应用大数据和人工智能的方法,以前所未有的“分辨率”来研究与人类健康相关的每一个细节。
星舰基因的思路就是引入人工智能的深度学习技术,通过整理海量dna测序数据,通过机器模拟人脑对信息的学习和处理过程,充分挖掘出全部样本的数据价值,从而实现真正意义上的个性化精准医疗。
来自清华大学生物信息学实验室的研究员鲁志博士称,目前已于星舰基因共建研究团队。该团队的研究包括建立数学模型,然后输入健康人的全基因组序列和rna序列,对模型进行训练,使模型学到健康人的rna剪切模式;借着通过其他分子生物学方法对训练后的模型进行确认和校正;使用几个目前已知的病例数据,检验模型判断的准确性。“如果模型的深度学习分析变得足够精确,这项技术对于直接分析突变频率低的变异与疾病的关系,和加速基因组学研究与药物开发的贡献将是巨大的。”鲁志博士说。
目前该合作团队的技术还只能分析基因突变频率大于1%的部分,以及引起的rna可变剪切与疾病的关系,对于其他原因导致的疾病还在研究中。但即便如此,人工智能在基因组学分析中的应用仍值得期待,也许它会成为解码基因与疾病奥秘的一把金钥匙。