立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 262|回复: 5

[分享] 深度学习在生物信息领域有什么应用?

[复制链接]
发表于 2025-5-27 20:41 | 显示全部楼层 |阅读模式
回复

使用道具 举报

发表于 2025-5-27 20:41 | 显示全部楼层
Hello大家好!我是孟浩巍,我们又见面了!
全新的平台

在正式开始介绍我们的新课之前,还是要再给大家介绍一下我们的新的课程平台:百因生信课(http://www.bioinfo.info
搞新课程平台是因为之前腾讯课堂在开课内容、开课时长、开课形式方面限制非常多,甚至到后期连报名课程下载资料的功能都取消了。正好,今年9月份和腾讯课堂的合约到期了,就借这个机会搞了个新平台。
以后所有的新课程以及老课程的更新全部都在我们自己的新平台,请大家一定多多捧场,谢谢大家长久以来的支持!
深度学习的三个爆点

深度学习的概念其实最早在上世纪70年代就已经提出,当时受限于算力等因素,其发展受到了极大的制约。2005年前后,深度学习的概念也远远不如支持向量机(SVM),隐马尔科夫模型(HMM) 等传统机器学习的概念受到学界的重视。
2012年,Geoffrey Hinton团队提出的AlexNet在深度学习领域引起了巨大的革新。该模型对20世纪90年代Yann Lecun提出的卷积神经网络架构进行了改进,并首次引入了GPU进行模型训练。在ImageNet挑战赛中,AlexNet成功击败了传统机器学习模型如SVM,引起了计算机科学领域专家的广泛关注,标志着深度学习的崛起。
不过,开始让深度学习出圈的其实是近年来的三件事:
第一个爆点,就是基于深度学习/神经网络模型搭建的人工智能围棋程序AlphaGO成功战胜了李世石九段。 由于围棋具有巨大的数据空间,因此人工智能程序在围棋游戏中战胜人类高手,这在以往是绝对不敢想象的!所以,当时这件事一出,引发了媒体,学界以及公众的关注。也是这件事以后,深度学习的浪潮开始席卷而来。



AlphaGO战胜李世石九段

第二个爆点,就是利用深度学习搭建的蛋白结构预测模型AlphaFold和RosettaFold,成功实现了几乎所有蛋白主要结构的预测。 之前蛋白质结构主要都是通过核磁共振、X射线晶体衍射以及冷冻电镜方式解决;这些方法不但费事费力,需要大量的人力、物力、财力,还需要很高超的蛋白纯化技巧。而AlphaFold的出现,让蛋白结构预测从一门有技术壁垒的事情,变成了平民化的技术。诚然,还有很多大的蛋白复合物,以及需要精细的蛋白结构还不能通过AlphaFold或者RosettaFold预测解决。蛋白结构预测的巨大进步已经给蛋白优化、生物工具开发、药物研发带来革命性的改变!AlphaFold的成功也使得计算机科学领域之外的科学家探讨AI for Science的可能性。



蛋白质结构预测登上Nature,Science顶刊

第三个爆点,就是以ChatGPT为代表的大模型的广泛应用。 2022年底,ChatGPT的问世使得大模型引起了包括科学家,政府官员,企业家,学生以及广大人民群众等社会各界人士的普遍关注与赞叹。大模型的成功被认为是AI行业的重大突破,被比喻为第四次工业革命,并为AI的应用与转化落地开辟了新的场景。如百度总裁李彦宏先生所言,大模型成功的压缩了人类对整个世界的认知,为实现通用人工智能揭示了一条可行的道路。这些大模型正在深刻地影响着不同学科和不同行业。它们的出现也使得人工智能生成模型从传统的“人工智障”戏称变成了真正解决日常生活和各行各业各种任务的生产力工具。



OpenAI推出的ChatGPT将会引发生产关系的变革

为什么要开深度学习课?

这是一个最好的时代,也是一个最坏的时代。 ——狄更斯

我能想到的人工智能最重要的应用之一,就是在生物和医学领域。 —— AlphaFold 发明者、DeepMind 的首席执行官 Demis Hassabis
在这个时代,我们有机会拥抱未来,并与之同行;同时,我们也有可能被时代所抛弃,遗落在岁月的长河!
想起一句话:天下大势,浩浩汤汤,顺之者昌,逆之者亡!
我们做科研,也要顺应时代的发展,积极拥抱当下,拥抱新技术。因此,我们打算开这门新课——《深度学习在生物学中的应用》
课程亮点

就像前文所述,深度学习技术已经深入人心,国内外优秀的课程更是不计其数。比如:
珠玉在前,我们不敢造次!
我们的目标既不是做一门与生物问题无关的深度学习课程,也不是做一门全面讨论深度学习如何与生物问题结合的课程。
相反,在必要的基础知识介绍之后,我们希望从生物信息学的角度出发,选择一些具有代表性的前沿案例,向大家展示深度学习在生物信息学中的应用,并引导大家动手拆解这些案例中所提出的模型与代码。 我们试图将理论学习与动手实践融为一体,向大家展示深度学习如何与生物学问题相结合,并做出有价值的工作的思路与方法。我相信,在当前的时间节点上,这样的理论介绍与动手拆解仍然具有巨大的意义!
我们希望本次课程能够达到下面3个目标:

  • 通俗易懂的介绍生信与深度学习融合的发展。 以及常见主流模型的原理与应用场景。这些主流模型包括CNN,VAE, GNN,transformer与大模型等深度学习前沿主流模型。
  • 紧跟前沿,紧密结合生物医药领域的重要问题。 根据典型案例进行剖析深度学习如何解决这些问题。这些案例包括scvi,scBasset, GEAR, Geneformer等发表在正刊和大子刊的最新文献。
  • 理论学习与动手实践结合。 让同学们能不仅知道深度模型的原理,还能树立起利用常见深度学习框架,结合自己感兴趣的问题,部署与搭建属于自己深度学习模型解决问题的信心。
你能学到什么?

技术层面
+ 深度学习+生信的技术提升
  + 硬件:GPU,CPU,内存,硬盘等等
  + 框架:深度学习常见框架(主要是pytorch)的配置与操作;
  + 代码:预处理代码,模型训练,可解释性与模型解读。
思维层面
+ 可用于深度学习解决的生物医药问题的特征
+ 深度学习解决生物医药问题的思路与方法
+ 现有方法的局限与未来是什么
需要的基础知识

- 计算机科学 (最低要求:学习过大学计算机基础等导论课程,学习过一门编程语言)
- 微积分(最低要求:会求导和求积分)
- 线性代数(最低要求:理解映射,向量,矩阵,线性变换和线性空间等概念)
- 概率论 (最低要求:理解概率分布,二项分布,正态分布的概念与性质)
- 优化(最低要求:理解最大值,最小值,极大值,极小值的概念与彼此之间的区别)
- 分子生物学(最低要求:理解中心法则)
- 生物信息学 (最低要求:有利用过代码解决课程作业或者实际生物信息学科研项目经验)
- 科研思维(最低要求:有基本的批判性思维和好奇心)
学习需要的硬件要求

如果需要完整运行本次课程的代码,需要一台带有NVIDIA显卡的工作站或者服务器,显卡要求显存至少大于8G。
课程安排

本次课程,预计分6次直播,共计20个小时左右的上课时长。上课方式为腾讯会议直播,会议号及参会密码报名后会发送给大家。
第一次上课时间为:2023年9月17日(周日)上午9点
通过本次课程的学习,相信你一定能有所收获,拥抱当下、拥抱未来,为以后做出更加创新性的工作打下坚实的基础!
讲师信息

王博士,博士毕业于北京大学,具有深度学习+生物信息学项目及论文发表经验
报名方式与优惠信息

本次课程是我们新平台的第一次尝试,也是为了回馈大家长时间以来的支持与帮助,所以特别给大家推出优惠:原价1999元/人,三人拼团价格为699元/人!
优惠截止日期:2023年9月5日,过期不再享有拼团价格!
【拼团优惠】深度学习在生物学中的应用附:课程大纲

总过6次课,每节课2~3个小时,总共约20小时:
1. 课程介绍与环境配置
2. 深度学习基本知识与应用简介
3. scBasset与CNN;
4. scvi与VAE;
5. GEAR与GNN;
6. TOSICA,Geneformer,scFoundation与大模型
回复 支持 反对

使用道具 举报

发表于 2025-5-27 20:42 | 显示全部楼层
比如….有机化合物反应预测、药理分析、蛋白质变异趋势预测、蛋白质功能预测、药物合成、蛋白质分类、蛋白质的图有无序区检测、蛋白质空间结构预测、物种分类、物种丰富度预测、致病基因检测等…
看到这道题的时候,就觉得这时必须把卖萌屋白姑娘画的神漫画祭出来了!
漫画链接:https://mp.weixin.qq.com/s/GxjtoHgP9DIu3994frYZ1Q




























参考文献太多了就不贴在这里了,感兴趣的小伙伴戳原文获取叭~
回复 支持 反对

使用道具 举报

发表于 2025-5-27 20:42 | 显示全部楼层
关于深度学习在生物信息学中的应用这个话题由来已久,并已经有一些实际的案例。趁着DeepMind团队通过AlphaFold2算法预测蛋白质三维结构取得突破成就的契机,再来谈一谈这个话题。
可能你并不是很了解BP、CNN、RNN等这类算法的原理,但你依然对于深度学习在生物信息学应用感兴趣,阅读这篇文章是一个不错的选择。我会省略掉数学推导,以一种纯科普的文字来进行阐述。
先看一看AlphaFold2的思路做一个调味菜吧:AlphaFold2 解决了蛋白质结构问题吗?DeepMind 解决这项生物学五十年难题有何重大意义?
下面开始正题,先用一篇文章讲述一个生物中深度学习的美妙故事,在2018年,nature在线发表了长文《Deep learning for biology》
Deep learning for biology
一种流行的人工智能方法为生物数据的调查和分类提供了有力的工具。但对于外行来说,这项技术带来了巨大的困难。



大脑的神经网络长期以来一直激励着人工智能研究人员

四年前,来自谷歌的科学家们出现在神经学家Steve Finkbeiner的家门口,这些研究人员来自位于加州山景城的谷歌加速科学研究部门,该部门旨在利用谷歌技术加速科学发现。他们对将“深度学习”方法应用于Finkbeiner的团队产生的大量成像数据很感兴趣,Finkbeiner的团队位于旧金山的格莱斯顿神经疾病研究所,也位于加州。
深度学习算法从一个极其庞大的带注释的数据集(比如一组图像或基因组)中提取原始特征,并利用它们创建一个基于隐藏其中的模式的预测工具。一旦经过训练,算法就可以应用这些训练来分析其他数据,有时这些数据来自非常不同的来源。
Finkbeiner说,这项技术可以用来“解决非常困难、棘手、复杂的问题,并能够看到数据中的结构——对于人类大脑来说,这些数据的数量太大、太复杂,无法理解”
他和他的团队使用被称为机器人显微镜的高通量成像策略生成大量数据,这是他们为研究脑细胞而开发的。但该团队无法以获取数据的速度分析数据,因此芬克贝纳欢迎合作的机会。
他表示:“老实说,当时我不能明确地说,我对深度学习可能解决的问题有什么把握,但我知道,我们生成数据的速度是我们分析数据的速度的两到三倍。”
如今,这些努力开始有了回报。芬克贝纳的团队和谷歌的科学家们用两组细胞训练了一种深度算法,其中一组细胞被人为标记,以突出科学家们通常看不到的特征,另一组细胞则没有标记。芬克贝纳说,当他们后来将算法暴露在从未见过的未标记细胞的图像上时,“它在预测这些图像的标签方面表现得惊人地好。”一份详细介绍这项工作的出版物正在出版中。
Finkbeiner的成功凸显了深度学习这一最有前途的分支是多么的重要,人工智能(AI)的研究,正在侵入生物学。这些算法已经渗透到智能手机、智能扬声器和自动驾驶汽车的现代生活中。在生物学中,深度学习算法能以人类无法做到的方式深入数据,探测出原本不可能捕捉到的特征。研究人员正在使用算法对细胞图像进行分类,建立基因组连接,推进药物发现,甚至发现不同数据类型之间的联系,从基因组学和成像到电子医疗记录。
在bioRxiv上有超过440篇文章讨论深度学习;PubMed在2017年列出了700多条参考文献。生物学家和临床研究人员正在广泛使用这些工具。但研究人员在理解这些算法的作用以及确保它们不会把用户引入歧途方面面临着挑战。
训练智能算法
深度学习算法依赖于神经网络,这是一个在20世纪40年代首次提出的计算模型,在其中,类似神经元的节点层模仿了人类大脑如何分析信息。费城宾夕法尼亚大学计算生物学家Casey Greene表示,直到大约五年前,基于神经网络的机器学习算法还需要研究人员将原始信息处理为更有意义的形式,然后再将其输入到计算模型中。但是,来自智能手机快照或大规模基因组测序等来源的数据集数量激增,并且算法创新使人类有可能退后一步。机器学习的这一进步(“深度”部分)迫使计算机(而不是其人类程序员)找到嵌入像素和基数中的有意义的关系。随着神经网络中各层对信息的过滤和排序,它们也相互通信,从而使每一层都可以优化前一层的输出
最终,此过程允许训练有素的算法分析新图像并将其正确识别为例如Charles Darwin或患病细胞。但是,随着研究人员远离算法,他们将无法控制分类过程,甚至无法准确解释软件的功能。尽管这些深度学习网络可以非常准确地做出预测,但Finkbeiner说:“有时候,要弄清网络所能做出的良好预测,仍然是一项挑战。”
直到现在,包括成像在内的许多生物学子学科都从这些预测中获益。十年前,用于自动生物图像分析的软件专注于测量一组图像中的单个参数。例如,在2005年,安妮·卡彭特(Anne Carpenter)马萨诸塞州剑桥市麻省理工学院和哈佛大学的计算生物学家发布了一个名为CellProfiler的开源软件包,以帮助生物学家定量测量各个特征:例如,显微镜领域中荧光细胞的数量或长度的斑马鱼。
但是深度学习使她的团队走得更远。她说:“我们一直在测量生物学家不知道自己想从图像中测量的东西。”记录并结合视觉特征(例如DNA染色,细胞器质地和细胞中空白空间的质量)可以产生成千上万的“特征”,其中任何一个都可以揭示新的见解。当前版本的CellProfiler包含一些深度学习元素,她的团队希望在明年添加更复杂的深度学习工具。
“大多数人都很难解决这个问题,”卡彭特说,“但是,在单个细胞图像中,与在细胞群体的转录组分析中一样,有很多信息,实际上可能更多。 ”
这种处理方式使Carpenter的团队采取了一种较少监督的方法,将细胞图像转化为与疾病相关的表型,并加以利用。 Carpenter是犹他州盐湖城递归制药公司的科学顾问,该公司正在使用其深度学习工具来针对罕见的单基因疾病进行药物开发。
挖掘基因数据
当涉及深度学习时,不是任何数据都可以。该方法通常需要大量的,注释良好的数据集。成像数据提供了自然拟合,基因组数据也是如此。
旧金山的Verily Life Sciences(以前称为Google Life Sciences)。谷歌母公司Alphabet的子公司Verily的研究人员和谷歌开发了一种深度学习工具,该工具可以比传统工具更准确地识别一种常见的遗传变异类型,即单核苷酸多态性。该软件称为DeepVariant,可将基因组信息转换为类似图像的表示形式,然后将其分析为图像(请参阅“深潜工具”)。谷歌基于深度学习的基因组研究负责人马克·德普里斯托斯(Mark DePristo)希望DeepVariant对于研究主流之外的生物的研究人员特别有用-那些低质量的参考基因组和高错误率的基因变异识别方法。与植物公司DeepVariant一起工作时,他的同事Ryan Poplin的错误率已接近其他方法中20%的典型值(接近2%)。
Verily Life Sciences(前身是谷歌生命科学)也一直使用此类数据。Verily是Google母公司Alphabet的子公司,研究人员开发了一种深度学习工具,可以比传统工具更准确地识别常见的遗传变异类型,即单核苷酸多态性。这种名为DeepVariant的软件,将基因组信息转换成图像表示形式,然后将其作为图像进行分析。
多伦多加拿大深度基因组学公司首席执行官Brendan Frey也致力于研究基因组数据,但其目标是预测和治疗疾病。多伦多大学的弗雷(Frey)的学术团队开发了受过健康细胞基因组和转录组数据训练的算法。这些算法建立了这些数据中RNA加工事件(例如剪接,转录和聚腺苷酸化)的预测模型。 Frey说,即使将这些算法应用于临床数据,它们也能够识别突变并将其标记为病原体,尽管他们从未见过临床数据。在Deep Genomics,Frey的团队正在使用相同的工具来识别和确定软件发现的疾病机制,以开发源自短核酸序列的疗法。
药物开发是另一项具有适合深度学习的海量数据集的学科。在这里,深度学习算法正在帮助解决分类难题,筛选诸如形状和氢键之类的分子特征,从而确定对这些潜在药物进行排名的标准。例如,总部位于旧金山的生物技术公司Atomwise开发了将分子转换为3D像素网格(称为体素)的算法。这种表示方式使该公司能够以原子精度解释蛋白质和小分子的3D结构,并建模诸如碳原子的几何形状之类的特征。该公司首席执行官亚伯拉罕·海菲茨(Abraham Heifets)说,这些特征随后被转化为数学向量,该算法可用于预测哪些小分子可能与给定的蛋白质相互作用。他说:“我们所做的许多工作都是针对没有已知结合物的[蛋白质]目标。”
Atomwise正在使用这种策略来推动其新的AI驱动的分子筛选程序,该程序扫描1000万个化合物的库,为学术研究人员提供多达72种潜在的感兴趣的蛋白质小分子结合剂。


深度学习工具还可以帮助研究人员对疾病类型进行分层,了解疾病亚群,找到新的治疗方法,并将其与适合的患者进行临床测试和治疗。例如,Finkbeiner是一个名为“回答肌萎缩侧索硬化症”的组织的成员,该组织致力于整合来自1000名肌萎缩侧索硬化症(也称运动神经元疾病)患者的一系列数据——基因组学、转录组学、表观基因组学、蛋白质组学、影像学甚至多功能干细胞生物学。他说:“我们将第一次拥有一个数据集,可以应用深度学习,看看深度学习能否揭示我们在培养皿中测量的细胞周围的东西与病人身上发生的事情之间的关系。”
挑战和警告
研究人员警告称,尽管深度学习前景广阔,但它带来了重大挑战。与任何计算生物学技术一样,算法产生的结果只能和输入的数据一样好。模型对训练数据的过度拟合也是一个问题。此外,对于深度学习而言,数据数量和质量的标准往往比一些实验生物学家可能预期的更为严格。
深度学习算法需要非常大的数据集,这些数据集需要很好的注解,这样算法才能学会区分特征和分类模式。更大的,明确标记的数据集-有数百万代表不同实验和生理条件的数据点——为研究人员训练算法提供了最大的灵活性。Finkbeiner指出,在他的工作中,通过大约15000个例子,算法训练得到了显著改善。卡彭特说,这些高质量的“ground truth”数据可能异常难以获得。
为了避免这一挑战,研究人员一直在研究以更少的数据进行更多训练的方法。 Carpenter说,底层算法的进步使神经网络可以更有效地使用数据,从而可以对一些应用程序进行少量图像的训练。科学家还可以利用转移学习,即神经网络将从一种数据类型获取的分类能力应用到另一种类型的能力。例如,芬克拜纳(Finkbeiner)的团队开发了一种算法,该算法最初用于根据形态变化预测细胞死亡。尽管研究人员对其进行了训练以研究啮齿动物细胞的图像,但首次将其暴露于人类细胞的图像时,其准确性达到了90%,随着经验的积累,它的准确性提高到了99%。
对于Google的某些生物图像识别工作,Google Accelerated Science使用的算法最初是针对从互联网上提取的数亿张消费者图像进行训练的。然后,研究人员使用与他们希望研究的图像类似的少至数百张生物学图像来完善该训练。
谷歌加速科学的研究科学家米歇尔·戴蒙指出,计算机既不聪明也很懒惰。他们缺乏从正常变异中区分生物学相关差异的判断力。她指出:“计算机在发现批量变化方面出奇地出色。”因此,要获得将被输入深度学习算法的数据,通常意味着要对实验设计和控制施加很高的标准。谷歌加速科学要求研究人员将对照随机放置在细胞培养板上,以考虑诸如培养箱温度等微妙的环境因素,并使用生物学家可能使用的两倍数量的对照。戴蒙打趣道:“我们让移液管的移动变得很困难。"
戴蒙说,这种危险凸显了生物学家和计算机科学家合作设计包含深度学习的实验的重要性。在谷歌的最新项目中,这种细致的设计变得更加重要:等高线。等高线是一种对细胞成像数据进行聚类的策略,以突出趋势(如剂量反应),而不是将它们分类(如活的或死的)。
格林警告说,尽管深度学习算法可以在没有人类先入之见和过滤器的情况下评估数据,但这并不意味着它们是公正的。训练数据可能会被扭曲——例如,当只使用来自北欧的基因组数据时就会发生这种情况。在这些数据上训练的深度学习算法将获得嵌入的偏见,并在预测中反映出来,这反过来可能导致不平等的病人护理。如果人类帮助验证这些预测,就提供了对问题的潜在检查。但如果让一台计算机独自做出关键决策,这种担忧就会令人不安。格林说:“把这些方法看作是增强人类能力的一种方式,比把它们看作是替代人类的一种方式要好。”
接下来的挑战是理解这些算法是如何构建特征的,或者说是它们首先用来分类数据的特征。马里兰州巴尔的摩市insilo Medicine的研究科学家Polina Mamoshina说,计算机科学家正在通过改变模型中的个体特征,然后检查这些调整如何改变预测的准确性来解决这个问题。insilo Medicine利用深度学习来改进药物发现。但是不同的神经网络处理同一个问题的方式是不一样的,格林警告说。他说,研究人员越来越关注能够做出准确和可解释预测的算法,但目前系统仍是黑盒子。
格林说:“我认为高度可解释的深度学习模型不会在2018年出现,尽管我希望自己是错的。”
参考文献:Webb S . Deep learning for biology[J]. Nature, 2018, 554(7693):555-557.
nature的这篇文章不会是一个终结,2019年一篇名为:生物信息学的深度学习:大数据时代的介绍、应用和展望再次打破了沉寂。
让我们一起来领略一下
摘要
深度学习在处理大数据方面尤为强大,在包括生物信息学在内的各个领域都取得了巨大成功。随着生物学大数据时代的推进,可以预见,深度学习在该领域将变得越来越重要,并将被纳入绝大多数分析管道中。在这篇综述中,我们提供了深度学习的开放性介绍,以及它在生物信息学中的典型应用的具体例子和实现。本文从生物信息学领域深度学习的最新研究成果入手,指出了适合深度学习的问题。之后,我们以一种简单易懂的方式介绍了深度学习,从浅层神经网络到传说中的卷积神经网络、传说中的递归神经网络、图神经网络、生成对抗性网络、变分自动编码器以及最新的体系结构。然后,我们提供了8个实例,涵盖了生物信息学的五个研究方向和所有四种数据类型,并用TensorFlow和Kera编写了实现。最后,我们讨论了用户在采用深度学习方法时会遇到的共性问题,如过度匹配和可解释性,并提出了相应的建议。
免费获取地址:https://github.com/lykaust15/Deep_learning_examples.
引言
随着计算能力的显著提高和大数据的进步,深度学习已经成为近年来最成功的机器学习算法之一。它一直在不断刷新许多机器学习任务的最新表现,并促进了许多学科的发展。例如,在计算机视觉领域,基于卷积神经网络的方法已经占据了图像识别,目标检测,图像inpainting和超分辨率三个主要方向。在自然语言处理领域,基于递归神经网络的方法通常代表了从文本分类到语音识别和机器翻译的广泛任务的最新性能。在高能物理、心理学等多个方面领域都有广泛的应用。
深度学习显然已经证明了在推动生物信息学领域的能力,包括序列分析,结构预测和重建,生物分子性质和功能预测,生物医学图像处理和诊断,生物分子相互作用预测和系统生物学。具体来说,关于序列分析,人们使用深度学习预测非编码序列变异的影响,模型转录因子结合亲和力景观,提高DNA测序和肽测序[分析DNA序列修改,和模型各种post-transcription监管事件,如可变聚腺苷酸化,可变剪接,转录起始站点,非编码RNA。在结构预测方面,利用深度学习预测蛋白质二级结构;采用深度学习来模拟蛋白质与其他分子相互作用时的结构;利用深度神经网络预测蛋白接触图和膜蛋白的结构;通过将深度学习与贝叶斯推断相结合,提高了荧光显微镜的超分辨率。在生物分子性质和功能预测方面,利用深度学习预测酶的Commission number (EC number)来预测酶的详细功能;利用深度学习预测蛋白质基因本体(GO);通过深度学习预测蛋白亚细胞位置。在使用深度学习来执行生物医学图像处理和生物医学诊断方面也有一些突破。例如,提出了一种基于深度神经网络的方法,在皮肤癌分类方面可以达到皮肤科医生的水平;利用迁移学习解决数据饥渴问题,促进医疗诊断自动化;提出了一种深度学习方法,可以从未标记生物样本的透射光图像中自动预测荧光标记;也提出了深度学习方法进行分析。
除了不断增长的计算能力和改进的算法之外,深度学习在生物信息学领域成功的核心原因是数据。在生物学领域产生的大量数据曾经被认为是一个巨大的挑战,实际上使得深度学习非常适合于生物学分析。特别是,深度学习在处理以下生物数据类型方面显示出了优越性。首先,深度学习已经成功地处理了序列数据,如DNA序列、RNA序列、蛋白序列和纳米孔信号。通过使用反向传播和随机梯度下降训练,深度学习在检测和识别隐藏在序列数据中的已知和之前未知的motifs、pattern和domains方面是专家。递归神经网络和带一维滤波器的卷积神经网络适合处理这类数据。然而,由于递归神经网络发现的模式不易解释和可视化,如果想要找出神经网络发现的隐藏模式,卷积神经网络通常是生物序列数据的最佳选择。其次,深度学习在处理二维和张力类数据方面尤其强大,如生物医学图像和基因表达谱。标准卷积神经网络及其变种,如残差网络、密连网络和双径网络,在处理生物医学数据方面表现出了令人印象深刻的性能。借助卷积层和池化层,这些网络可以系统地检查不同尺度下隐藏在原始映射中的模式,并将原始输入映射到一个自动确定的隐藏空间,其中的高层表示具有丰富的信息,适合于监督学习。第三,深度学习还可用于处理图形数据,如症状-疾病网络、基因共表达网络、蛋白-蛋白相互作用网络和细胞系统层,并促进了最新性能。处理网络的核心任务是进行节点嵌入,可以进行下游分析,如节点分类、交互预测、社区检测等。与浅层嵌入相比,基于深度学习的嵌入以树的方式聚合节点邻居的信息,参数较少,并且能够纳入领域知识。可以看出,上述三种数据都是原始数据,在我们将数据输入到模型时,没有经过太多的特征提取过程。深度学习非常擅长处理原始数据,因为它可以端到端的方式进行特征提取和分类,从而自动确定重要的高层特征。对于已经经过特征提取过程的结构化数据,深度学习可能不会显著提高性能。然而,只要仔细调整超参数,它不会比传统的方法(如SVM)差



深度学习在生物信息学的应用

考虑到深度学习在促进生物信息学研究方面的巨大潜力,为了促进其发展和应用,在本综述中,我们将首先详细深入地介绍深度学习(第2节),从浅层神经网络到深层神经网络及其上述变体,适用于生物数据分析。之后, 我们提供一些具体的例子(第3节),并在Github上实现, 包括五个生物信息学研究方向(序列分析,结构预测和重建,生物分子属性和功能预测,生物医学图像处理和诊断,以及生物分子相互作用预测)和系统生物学)和所有四种类型的数据(1D序列,2D图像和轮廓,图形和预处理数据)。
在网络类型方面,这些例子将涵盖全连接神经网络、标准卷积神经网络(CNN)、递归神经网络(RNN)、残差网络(ResNet)、生成对抗网络(GAN)、变分自编码器(VAE)和图卷积神经网络(GCN)。在这些具体的例子之后, 我们将讨论研究人员在使用深度学习时可能遇到的潜在问题以及相应的可能解决方案(第4节),包括过度拟合(第4.2节),数据问题(第4.1和4.3节),可解释性(第4.4节),不确定性缩放(第4.5节),灾难性遗忘(第4.6节)和模型压缩(第4.7节)。
从浅层神经网络到深度学习
在这一节中,我们将首先介绍浅神经网络的形式及其核心组件(第2.1节)。之后,我们介绍了标准CNN和RNN的关键组成部分(2.2节)。由于标准的CNN和RNN在过去几年中得到了极大的改进,我们还将介绍几种最先进的架构(第2.3节),包括ResNet、DenseNet和SENet。在介绍了规则的一维和二维数据架构之后,我们介绍了用于处理网络数据的图神经网络(第2.4节)。然后,我们介绍了两种重要的生成模型(2.5节),GAN和VAE,它们可以用于生物医学图像处理和药物设计。最后,我们概述了当前可用的框架,这些框架使得构建深度学习模型非常方便(第2.6节)。
图1是浅层神经网络的结构。


图2 详细地展示了CNN内部的卷积层和其结构。


图3展示了循环神经网络结构。


图4展示了前沿的不同卷积神经网络在图像应用上的深度网络架构。


在2.4节中,本文简要介绍用图神经网络来处理网络数据,网络数据是生物信息学中常见的数据类型。
图5展示了图神经网络的应用示例。(A)图形数据的典型示例。(B)嵌入空间。在该嵌入空间中,每个数据点由向量表示,而(A)中的原始拓扑信息保留在该向量中。(C)用于在(A)中嵌入网络的图神经网络。我们使用节点a和b作为示例。 每个节点的内部属性被视为原始表示。 在每一层中,节点聚合来自其邻居的信息,并使用平均和激活函数更新表示。


图6是GAN的图示。在GAN中,我们有一对网络同时相互竞争。生成器网络负责生成新的数据点(本例中的酶序列)。判别器网络试图将生成的数据点与实际数据点区分开。


图7:(A)自编码器示意图,由编码器和解码器组成。编码器网络将输入压缩到潜在向量中,解码器网络从潜在向量中重构数据。(B)变分自编码器说明。


代码实现
地址:https://github.com/lykaust15/Deep_learning_examples


深度学习是一种非常强大和有用的技术,它促进了包括生物信息学在内的各个领域的发展。随着生物大数据时代的推进,为了进一步推动深度学习在生物信息学中的应用,在这篇综述中,我们首先回顾了深度学习的成果。之后,我们从浅神经网络,到传奇的卷积神经网络,传奇的递归神经网络,图神经网络,生成对抗神经网络,变分自编码器,做了简单而易懂的介绍。我们还提供了详细的示例和实现,以方便研究人员采用和开发基于深度学习的自己的方法。最后,我们指出了使用深度学习的常见困难并提出了相应的建议。虽然本综述没有涵盖深度学习的所有方面,如深度强化学习和深度学习的理论方面,但它涵盖了生物信息学中深度学习应用的大部分方面。我们相信,这篇综述将有助于阐明深度学习在生物信息学、生物医学和医疗保健领域的未来发展和应用。
参考文献
[1] Li Y , Huang C , Ding L , et al. Deep learning in bioinformatics: Introduction, application, and perspective in the big data era[J]. Methods, 2019.
部分内容引用:
【30页综述和代码实现】 基于深度学习的生物信息学应用及展望                                                  作者:专知  来源:微信
深度学习的使用会更大的解放生物学家的双手,也建议大家有所了解,这两篇文献在大多数平台都可以免费下载,是生信入门深度学习的一份宝贵的资料。目前深度学习并不能解决所有的问题,面对不同的问题解决得效果也有很大得差别,期待一些新的突破。
你希望下一个还是AlphaX吗?评论区谈一谈你的看法,国内哪个团队或者公司可能会在这一领域取得更大得突破。
回复 支持 反对

使用道具 举报

发表于 2025-5-27 20:43 | 显示全部楼层
深度学习会给生物信息学和基因组学带来新的的改变,而且这个改变实际已经在发生。基因组学其实是一门将数据驱动作为主要研究手段的学科,机器学习方法和统计学方法在基因组学中的应用一直都比较广泛。
但现在多组学数据(类型多元)越来越多——这个从目前逐渐增多的各类大规模人群基因组项目上可以看出来,这其实带来了新的挑战——就是数据挖掘的难度增加了。如果我们希望可以继续高效地从多组学数据中挖掘出有价值的信息,那么就需要掌握更富有表现力的方法,这个时候深度学习就成了一个合适的选择。
因为就目前来说深度学习本身就适合用来挖掘大量的、多维度数据背后的潜在规则,它也已经改变了多个计算机领域,包括图片识别、人脸识别、机器翻译、自然语言处理等。
其次,我们才来看看迄今为止在生物信息学和基因组学上深度学习都有了什么应用和研究,是如何应用的以及存在哪些问题
我这个回答主要基于2019年4月 Nature Reviews Genetics 上《Deep learning- new computational modelling techniques for genomics》的内容,同时我也做了一些额外的补充,以此来梳理一下目前深度学习在生物信息学和基因组学方面的应用情况。主要有下面四个部分的内容:

  • 第一,(先搞清楚机器学习的基本原理和类型)介绍有监督学习中四个主要的神经网络,分别是:全连接网络、深度卷积、循环卷积和图卷积,同时解释了如何将它们用来抽取基因组数据中常见的 Pattern;
  • 第二,介绍多任务学习和多模态学习,这是两种适合于集成多维数据集的建模方法;
  • 第三,讨论迁移学习,这是一种可以从现有模型中开发新模型的技术。这个方法对于多组学的研究和应用来说有着实际的价值;
  • 第四,讨论自动编码器(Autoencoder, AE)和生成对抗网络(generative adversarial networks,GANs)这两个非监督学习方法。
接下来,我逐一展开,不过我会在第一部分中先简单介绍机器学习和深度学的特点以及基本原理,然后再分别介绍不同的深度学习算法在解决基因组学问题上的应用情况。
第一部分

这一部分的内容与有监督学习有关(深度学习中很重要的一块就是有监督学习),因此我们要先了解什么是“有监督学习”。下面是有监督学习的一个示意图:



图1.有监督学习示意图

简单来说,有监督学习的过程是输入样本的特征值(这个特征值可以是一个值,也可以由是一系列值构成的向量),然后预测出样本属于哪一个结果标签(或叫做“标注”)。比如 图1 是一个预测 RNA 剪接位点的例子,这里模型要依据样本的特征值(如:位点序列信息、位置、内含子长度等)进行计算得到一个是否为剪接位点的预测结果。
另外,图1 其实是一个由逻辑回归组成的单层神经网络分类模型。
所以,有监督学习是一种需要使用标签化数据进行训练,然后推断出输入特征和结果标签之间函数映射关系的机器学习方法,模型的训练数据需要有明确的结果标签,否则不能训练。搞清楚定义之后,那有监督机器学习是如何进行模型训练的呢?所谓训练其实就是求解模型参数。这个过程具体是如何实现的呢?



图2. 模型训练

这个训练过程一共三步(图2)——这也是绝大多数机器学习算法进行模型训练的方式,具体如下:
1. 分割数据
首先,要将训练数据分割为三个集合,分别是:训练集,验证集和测试集(如图2.a) 。其中,训练集用于模型参数的计算,验证集用于模型性能评估和超参调整,目的是为了保障模型可以在现有数据条件下达到最好的结果,而测试集则是用来评测最终模型的综合性能。
2. 使用训练集数据计算模型参数
还是以图2为例——我们这里图2是一个神经网络模型,训练开始时,首先要给这个网络中的各个参数进行一次随机初始化,然后再代入训练数据去迭代更新模型参数。每一次的迭代时,通常都是随机地从训练集中抽取一小撮数据(图2.a中的Batch)代入模型进行计算——注意这个过程非常重要,然后和真实结果比较获得函数损失量。在神经网络的训练中目前要通过反向传播算法做梯度运算获得能让模型的参数往损失函数最小化的方向走的值,模型的参数要依据这个极值的结果进行更新。接着再重新到训练数据中随机抽取另一小撮的数据集重复这一轮迭代,直到损失函数收敛。
反向传播算法是神经网络模型的基础,没有这个算法就无法高效地实现梯度下降算法中梯度值的计算。
这种训练时仅从训练集里随机抽取一小撮数据集的做法与一次性使用整个训练集的做法相比有两个好处:

  • 第一,模型训练所需的内存将比较恒定。因为不必将大量的数据一次性加载到内存里,因此,模型能不受计算机的内存所限,可以使用尽可能大的训练集数据,训练过程的可拓展性比较高;
  • 第二,在机器学习领域其实已经证明,这种小批量数据集的方法会给模型带来一定程度的随机波动,而这种波动有利于模型性能的提升。
3. 通过验证集调整模型的超参
所谓超参,就是“超级参数”,它是模型中一个(或一些)需要人为设定的外部参数,而且是无法通过训练集进行训练的,只能进行手动调整。比如,我们要在进行模型训练之前,先给模型的某部分乘上某一个固定的常数/向量,这个常数/向量无法训练,它就是“超参”通常只能一边调整一边在验证集上评估结果,最后留下一个“看起来”能够最准确贴近验证结果的参数。这是一个很繁琐的过程,需要多次尝试,直至模型性能不再出现改善为止
调超参一直都是机器学习模型训练的一个难点。
当你完成最后的调参之后,用另一个独立数据——也就是这里的测试集,综合评估这个最佳模型的性能,主要是看看是否存在过拟合或者功效不足的情况,没问题之后就可以用到项目中了。以上,就是训练一个神经网络模型的主要过程。再次强调一次:一共是三步,分别是:分割数据、使用训练集计算模型参数、通过验证集调整模型超参并用测试数据综合评估最终模型的性能。了解了以上背景内容之后,我们就可以转入深度学习的内容了。对于很多比较简单的问题而言,一个单层的神经网络通常是可以满足要求的。但对于维度更多、更复杂的生物学问题来说,单层是不够用的,只能通过更复杂的模型才能处理这类数据。图3是一个多层神经网络模型的示意图。



图3. 一个多层神经网络示意图

这个网络有两层,而且你可以看到中间一层不与输出层相连接,对于输出来说是一个不可见的“层”,所以也被称为隐藏层,它的作用是将上一层的输入数据做转换,将其映射到一个可以对特征值进行线性分离的空间,然后通过激活函数进行非线性化,再给到后一层作为输入。这个模型是深度神经网络的雏形,当你的模型有许多个中间隐藏层(>2)时,这个模型就称之为深度神经网络模型。深度神经网络使用隐藏层来自动学习非线性特征的各类变换。模型里的每一个隐藏层都可以是多个线性模型叠加一个激活函数所构成,激活函数非常重要,它起到了将线性模型非线性化的作用,否则你的模型就无法通过非线性的形式描述真实世界的生物学问题(因为这些问题本身通常就是线性模型无法解答的)。目前深度学习中用得最多的激活函数是ReLU,这是一个线性整流函数(负数赋值为0,正数不变):



图4. ReLU

深度学习模型的训练也和上面所术的过程一致。区别就在于,它涉及的参数多,需要更多的训练数据和更长的时间才能得到理想的结果。对于我们来说深度神经网络的构建和训练可以用专门的深度学习框架来实现,比如:TensorFlow、PyTorch和Keras等。
全连接网络层

在说完上面的关于模型训练的内容之后,接下来要说的是第一部分中的第一个概念:全连接网络层(Fully connected layer)。
全连接网络层一般是深度学习模型的倒数第二、第三层,它在网络中主要起分类器的作用,本质上就是将前面各层训练得到的特征空间线性地变换到另一个特征空间(即,结果空间——其实就是结果集)中。结果空间的每一个维度都会受到源空间所有维度的影响,数据被利用得很充分,所以可以很准确地将获得分类结果。这么说比较抽象的话,可以通俗理解为,经过全连接层的计算之后,目标预测结果就是前面各层结果的加权和了。以全连接层结成的神经网络也叫全连接神经网络,全连接神经网络在基因组学里也都有所应用,比如一开始我提到的剪接位点预测,还有致病突变预测、基因表达预测特定基因区域内顺式调控元件的预测等,但全连接层神经网络运算量很大。
深度卷积神经网络

接下来,我们用深度卷积神经网络(也就是CNN)作为例子,介绍序列模式特征的发现过程。如图5 所示,这个模型要通过神经网络预测TAL1-GATA1转录因子复合物的结合亲和力。



图5. 基于CNN的序列模式特征检测

图中,从左到右,第一层分别以 GATA1 和 TAL1 转录因子的位置为权重滤波器,滑动扫描整个 DNA 序列,然后卷积计算每一个扫描框中的结果形成一个权重矩阵(b-c),再使用 ReLU 激活函数——这个激活函数会将负值重新赋为0,正值则保持不变,进一步做运算。然后再用最大池化操作(图中的Max pooling),获取位置轴上各个连续窗口内的最大加权结果,再传入下一个卷积层进行新一轮的运算和特征训练,过程与第一个卷积层类似,最后再经过一个全连接层,得到最终想要的预测结果。目前利用 CNN 对序列特征预测转录因子结合位点的方法有三个,分别是DeepBind、DeepSEA和Basset。而且这是目前 CNN 在基因组序列特征预测方面做的比较成功的例子。
循环卷积神经网络

介绍完CNN之后,我们开始探讨循环卷积神经网络——简称RNN。鉴于它的特征,目前它主要在基因组远端调控预测方面有所运用。这是因为 RNN 相比于 CNN,它更加适合用于处理序列化的数据,包括时间序列数据、语言数据、文字翻译以及 DNA 序列数据,而且 RNN 对每一段序列单元都使用相同的操作,参数之间由一定的方式进行共享



图6. RNN

鉴于 RNN 模型的这些特点,它既可以有效地在DNA序列的任意位置上进行开放读码框的预测,也可以用来识别某类特定的输入序列,比如起始密码子预测、终止密码子预测等。相比于CNN,RNN模型的主要优势在于,RNN模型可以很自然地处理长度变化很大的DNA序列,比如mRNA序列就很适合通过RNN模型来进行处理和分析。如果CNN要达到类似的效果,需要作出很多繁琐的模型调整。不过,由于 RNN 只能对序列进行从前到后的顺序操作,因此也不太容易进行并行化处理,这就导致它的速度要比 CNN 模型慢很多。在基因组学的应用方面,RNN 主要是用在单细胞 DNA 甲基化预测、RNA binding protein预测和表观遗传学中DNA长序列可及性的预测(也就是长序列调控的预测)。如果你对这一块感兴趣可以试试 deepTarget/deepMiRGene,它们就是干这些事情的。此外,最近有一项研究发现,RNN模型还可用在测序数据的碱基识别(即Base-calling)。这在三代测序数据的Base-calling中有应用,DeepNano 就是通过构造合适的 RNN 模型对 Oxford Nanopore 测序仪所产出的长读长测序序列进行碱基识别的方法。
图卷积神经网络

图卷积神经网络模型(GCN)图6(d),在基因组学中涉及的应用还很少。它比较合适的应用场景是蛋白质之间互作用的网络或者基因与基因之间的调控网络上。因为这两个方面的网络,在逻辑上都将是以图结构的形式呈现。图卷积神经网络通过图中代表个体特征的节点和节点与节点之间的连接性来实行机器学习任务。虽然应用还比较少,但GCN实际上提供了一种分析图结构数据的新方法,值得在基因组学中进行更多的尝试和应用,比如可以尝试利用它来解决肿瘤亚型的分类等。
第二部分

第二部分要介绍的内容是“多任务学习和多模态学习”。之所以涉及到这个方面,是因为基因数据实际上并非只有 DNA 序列这一类遗传方面的数据,还涉及到转录组、表观组修饰、蛋白组等多组学数据,而且数据在彼此之间存在着一定的内在关系。如何处理和整合这些多组学数据就涉及到“多任务和多模态学习”这个问题了。在多模态学习模型的构成中,它有一个总损失函数,它的值是各个模态数据损失函数之和或者加权和,这取决于各个模态之间损失函数的结果是否差异巨大。下面图7.a-c 是一个多任务和多模态学习的示意图。这类模型的训练往往比较困难,因为需要同时优化学习网络中多个不同的损失函数,并且往往还得做出合适的取舍,每一个取舍都要有合理的内在理由。而且如果不同的类型的数据之间,出现了较为严重的权重失衡的话——比如出现”一超无强”的情况,那么最终的模型可能仅能代表一小撮数据的结果,这就会让模型出现严重偏差。



图7. 多任务与多模态学习模型

基因组学领域,已经成功应用多任务学习和多模态学习的一个场景是对多种不同的分子表型的预测,比如前面提到的转录因子结合位点、组蛋白标记、DNA可及性分析和不同组织中的基因表达等这一类与转录组学和表观基因组学相关的多组学研究。
第三部分

这一部分我们来说说迁移学习。迁移学习与上述内容都不同,它是一种解决训练数据稀缺问题的机器学习方法。因为数据稀缺或者数据缺失的情况下,从头训练整个模型可能是不可行的。那么一个取而代之的方法就是使用相似结构的任务,以及由它训练得到的模型的大多数参数来初始化我们的目标模型。你可以理解为,这是一种将先验知识整合到新模型中的机器学习方法,它可以在一定程度上解决训练数据不足的问题。比如 图8 这个例子,你可以看到在这个例子中,源模型的数据很充足,且源模型中第一个子模型的结构和预测结果的形式都跟目标模型相似(都是椭圆),那么这时我们就可以将源模型里这个子模型的相关参数迁移到下方的目标模型里,对目标模型进行初始化,接着再利用有限的训练数据对目标模型进行更新就可以了。



图8. 迁移学习

在基因组学中,远程调控的预测模型就应用到了迁移学习。不过迁移学习在组学方面的应用还缺少深入的研究,比如目前依然不清楚应该如何选择合适的源模型、以及源模型中有哪些参数适合共享到目标模型中等。
深度学习模型的可解释性问题

这个问题对于深度学习来说是天生的,但它关系着深度学习是否适合被充分应用到生命健康领域。我们知道深度学习模型的一个问题是黑盒子效应——我们无法得知模型的具体训练细节以及中间特征参数的变化。这对于基因组学研究来说是不利的,这是因为组学研究最后的服务对象是我们人类自身的健康(特别是重大的健康问题),没有人真的愿意将重大的健康问题交给一个没人理解的黑盒子处理,所以我们还是有必要对深度学习模型的可解释性进行一定的研究。但遗憾的是目前对深度学习模型的黑盒子效应,似乎尚未有特别有效的解密方法。目前主要是通过不断给出示例数据,探查输入和输出结果之间的关系来推测和评估模型所用到的特征和权重,给出特征重要性评分(Feature important score),可用的方法包括:归因分数、相关性系数或权重共享系数等。不过在深度学习领域,最近有一个称为DCell的模型,它提出了一种称为“可见神经网络”的技术,通过它可以检查神经网络的训练情况,进而再改善神级网络的可解释性。
第四部分

最后这部分讨论非监督学习在基因组学方面应用的问题,这里主要介绍自动编码机(Autoencoder, AE)和生成对抗网络(generative adversarial networks,GANs)这两类非监督学习方法,其中生成对抗网络在基因组学的首次应用是在单细胞基因组研究中。非监督学习与有监督学习不同,它的训练数据并不需要标记。模型的目的是通过学习数据集中有用的特征和属性来表征整个数据集的结构。最典型、最被熟知的非监督学习方法就是k-means聚类和降维算法(如PCA、tSNE)。神经网络也有类似的方法,比如自动编码机(AE),就是一种能够将数据嵌入到一个含有隐藏瓶颈层的低维空间中并对原始数据进行重建的方法,如图9所示。



图9. 自动编码机(AE)

这个方法很特别,而且非常有用的一点是它能够对原始数据进行有效的“降噪”!这是因为网络中间有一个维度较低的瓶颈层存在,它会迫使网络在学习的过程中尽可能提取更有用的特征,那些不重要的特征变化会被自动遗漏。而且,在该瓶颈层中的数据已经实现了降维,这个正好可以与PCA相呼应。另外,自动编码机适合用于缺失数据的填补,特别是可以用来填补基因芯片数据的缺失值和处理RNA-seq中基因表达数据中的异常值处理。另一个非监督神经网络是生成模型。生成模型不同于前面提到的方法,它的目的是学习数据的生成过程。代表性的例子就是生成对抗网络(GANs)和可变自动编码器(VAEs)。其中,VAEs方法可以生成新的随机样本,可以用在单细胞和RNA-seq数据中,用来协助寻找统计意义的结果。GANs是另一种生成模型,它包含一个鉴别器和一个生成器网络。这两个网络会进行共同训练,生成器用来生成真实的数据点,而鉴别器则用于区分样本是真实的或是由生成器所生成,图9(c)也是对该过程的一个描述。不过目前GANs,在基因组学中的应用非常有限,目前只看到在设计和蛋白质相关的DNA探针方面有所应用。
小结

关于目前深度学习在基因组学方面的应用和研究情况就介绍到这里了。在未来深度学习肯定是会深刻影响这个领域的,具体来说主要有三个方面:

  • 第一,协助对非编码区变异的功能进行预测,这是目前传统方法做得比较差的一个方面;
  • 第二,深度学习是一种完全由数据驱动的方法,它会进一步革新当前的生物信息学工具,我可以将它称为新生信,这个也是目前最热的,除了文章中所提到的新算法之外,变异检测算法DeepVariants和Clair也属于这一方面;
  • 第三,高效揭示多组学中高维数据的更多结构。
除此之外,对于未来还有一个非常重要的领域,那就是因果推断。不管是传统的机器学习方法,或是现在的深度学习方法,都很难用于预测数据之间的因果联系,而因果关系对于生命科学研究来说十分重要,目前虽有过一些尝试——比如孟德尔随机,但其实都比较初步。总的来说,这是一个很值得我们去进一步探索的地方,可以从零开始,而这也是我们的机会!
最后我有一个体会:不要迷信模型。模型是解决问题的工具,用好工具是我们的追求,但问题的解决应以人为本
参考文献 Deep learning- new computational modelling techniques for genomics
黄树嘉:基因组学中的深度学习
回复 支持 反对

使用道具 举报

发表于 2025-5-27 20:44 | 显示全部楼层
有可能改变未来的一项技术之一是基因科技,据麦卡锡去年发布的一份报告,预计到2025年,全球将会累计产生10亿人次的全基因组数据,而检测基因的成本将下降到接近为0。考虑到每一个人的全基因组数据将会达到100G, 如何对这些海量数据的解读,现有的生物信息方法基于统计学模型。
本篇文章列出了部分现有的应用深度学习技术处理医学和生物学问题的工具,从这个列表中,可以看出当前深度学习在该领域的挑战和局限,也可以全面的了解深度学习在计算生物学,医学影像及生物信息等学科所具有的广泛应用场景。




深度学习+生物的论文发表数量




发表的论文中所用的模型的比例


1>药物研发类

1)药物研发中需要预测不同结构的分子相互作用的情况,这可以大幅节省研发的时间和金钱成本。通过使用实验验证的数据,Ryan Adams将分子中的原子看成图中的点,将原子间的化学键看成是图的边,使用卷积神经网络预测全新的分子的性质,这项技术又被称为分子指纹,具体参考 https://github.com/HIPS/neural-fingerprint




药物分子间相互作用的示例图

2)ORGAN 使用强化学习和对抗神经网络来自动化的指导新药的研发过程,该模型能够按照指定的目标,去寻找符合要求的药物的分子结构。这种方法本来是一个通用的框架,适合各种类型的离散型数据,包括文本,乐谱,而这里针对药物研发的问题进行了针对性的优化,参考 https://github.com/gablg1/ORGAN

3)使用强化学习来从头开始生成药物序列,上述的两个工具,还只是辅助药物的研发,而通过RNN和强化学习的结合,https://github.com/MarcusOlivecrona/REINVENT中介绍的工具,可以从一个分子开始,生成只在特定的受体被激活的分子序列,例如针对多巴胺2型受体,这个工具生成的序列经过实验验证,95%都满足需求。

4)DeepChem,这是一个python库,应用了LSTM和卷积神经网络,作为一个可以从小样本中学习的计算化学工具DeepChem不止可以应用在药物的研发,还可以用在材料科学,量子化学的研究中。




2>基因组学
1)DeepVariant,这是一个2016年由谷歌的Deep Mind团队推出的工具,通过将基因数据转化成图像,再通过图像识别的模型,找出基因中有差异的部分,包括基因组上的单碱基突变(SNP)和小的插入缺失(Indel),如下图所示,该工具在升级之后,在多项标准的检测指标中表现的和传统方法相差不多。https://github.com/google/deepvariant




DeepVariant的原理示意图

2)ADAGE ,这是一个用降噪自编码器来分析基因表达数据的工具,所谓的基因表达量数据,就是针对每个基因,在不同的细胞中检测有多少RNA从其中转录,从而得出对应的基因产生了多少影响。通过对高纬度的基因表达量数据进行降维,ADAGE可以识别出不同样本间的相互关系,相比于传统的PCA或ICA的方法,ADAGE能够更准确在表达量都较低的情况下识别出具有生物学意义的基因。

在小鼠的胚胎干细胞上验证后,DeepCpG的表现优于现有的其他软件。甲基化会影响基因是否表达,而诸多启动子和增强子(DNA 序列中的调控区)与其调控的基因之间的相互作用则会影响基因的表达数量。同样是基于深度学习的SPEID [4] 基于基因序列预测启动子和增强子之间的相互作用,这是第一个基于基因序列来预测 启动子和增强子的软件,其效果优于基于基因功能做出的预测。

类似的工具(使用相近的模型,实现相似的目地)还包括https://www.biorxiv.org/content/early/2017/11/05/214122http://biorxiv.org/content/early/2015/11/16/031906https://github.com/uci-cbcl/D-GEX 等,这里就不一一列出了。

3)DanQ,DNA序列中编码蛋白质的区域被称为基因区,然而这只占序列总长度的2%,其他的序列有些作用是调控基因的表达,例如让一些基因多翻译一些,让另一些少翻译一些,而更多的部分,则不明确有什么功能。通过深度学习中的RNN或CNN等模型,可以预测基因中那一段是有调控作用的。类似的工具还有Basset DeepSEA DeepBind DeepMotif PEDLA FIDDLE, 从工具的数量上可以看出,这个领域的研究是相对容易出成果,也是具有较大潜力的。

4)DeepCpG,这是一个用来预测不同细胞的基因组上那些未知会被甲基化的工具,甲基化意味着通过表观遗传学(点击查看表观遗传学是什么)改变了基因的表达,而基因上会发生甲基化的位置,和其附近的序列有关,因此可以进行预测。类似的还有针对单细胞测序开发的工具,参考http://www.nature.com/articles/srep19598




3> 其他应用
1)和病人相关的一个重要应用场景是隐私保护,如何保证患者的生理数据能够有效的匿名化,是一个很重要的问题。通过使用对抗神经网络GAN,SPRINT这个工具可以生成和真实的患者数据类似的数据,但这些生成的数据无法对应到具体的患者,这样增加了对患者隐私的保护,可以增加患者共享自己数据的意愿,具体参考https://github.com/greenelab/SPRINT_gan

2)预测衰老标记,人的年龄不止是身份证上写的那个,更关键的是你的身体是否还像年轻人那样,Young AI是一个集合了21个深度学习模型的集成模型,只需要通过你体检得出的19项生理指标,这个模型就可以预测你的实际年龄,平均误差只有5.9年,这项工具将可以用于自我评估自己的衰老状况。http://www.aging.ai




3)Deep Heart 通过可穿戴设备检测的心跳数据提前预测中风的发作,从而为用户赢得抢救所需的时间,准确度高达97%。原理是因为心脏及各种动脉,静脉,胃,食管都连在植物性神经系统上,而心率变异率的变化与这些器官的状态有关,Deep heart  就可以通过加速度计和心率变异率的检测,来判断某个人是否有高血压或呼吸异常。

4)生物实验中,每一个批次的实验,甚至是不同的实验操作者,都会引起系统性的误差,这被称为Batch Effect 批次效应。https://academic.oup.com/bioinformatics/article-abstract/33/16/2539/3611270 中提出了使用深度学习而不是传统的统计学来消除单细胞测序中的批次差异的工具,如果一个实验完成了两次,那这两次之中的差异就是批次差异,如果能通过训练神经网络,使其可以重复出两次实验之间的差异,那么就可以通过去除上述的差异来去除批次效应。

参考资料
https://github.com/hussius/deeplearning-biology
回复 支持 反对

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表