【ZiDongHua 之方案应用场收录关键词: 清华大学自动化系 合成生物学 人工生物 人工智能 】

 

紫冬学术丨自动化系汪小我团队提出知识引导与数据驱动相融合的合成启动子AI设计方法

 

近年来,合成生物学作为一门新兴交叉学科获得了蓬勃发展,为破解人类面临的资源、健康、环境等重大挑战提供全新解决途径。合成生物学的核心理念是通过对DNA等生物大分子的逆向设计重构获得具有特定功能的人工生物系统。然而,这些生物分子编码的组合排列空间十分庞大,序列与功能的映射关系复杂,对生物大分子序列进行精准设计极具挑战。近期人工智能技术的突破引发了自然语言处理、计算机视觉等领域的革命性进步,尤其是以ChatGPT等为代表的生成式智能模型的突破,彰显出AI在提取复杂模式、生成复杂对象上的强大潜力。基于人工智能技术逆向设计启动子等具有特定功能的生物大分子序列,将为合成生物学的发展提供强大的设计工具和丰富的基础元件。

 

近日,清华大学自动化系汪小我团队提出了一种将专家知识与大数据学习相融合的合成启动子人工智能辅助设计方法,发现了转录因子结合位点旁侧序列在启动子优化设计中的重要作用,为突破基因调控元件设计中面临的高维度、小样本的核心难题提供了新的思路。研究成果以“Deep flanking sequence engineering for efficient promoter design using DeepSEED”为题,于2023年10月9日发表于《自然-通讯》(Nature Communications)期刊上。

该研究围绕着启动子(Promoter)这一负责决定基因在何时、何地以何种程度进行转录表达的合成生生物学基础元件展开研究。DNA序列设计的空间巨大,1000bp长度的序列理论上有10^600种可能的排列组合方式。传统的启动子解析与设计研究主要侧重于对功能已知的转录因子结合位点(Transcription Factor Binding Sites, TFBS)进行分析,并通过位置权重矩阵(PWM)等模型对序列motif进行描述和建模。然而对在启动子序列中占据很大比例的位于不同TFBS之间的旁侧序列(Flanking sequence)却缺少研究。虽然有实验表明旁侧序列的改变也会对启动子活性产生影响,然而由于旁侧序列中的特征信号弱,难以被人为归纳总结为明确的知识和设计准则,导致旁侧序列在启动子功能研究中被长期忽视。此外,由于天然基因组具有特殊功能的启动子往往样本数量很少,导致对响应特定生物信号的诱导型与细胞特异型等更具实际应用价值的启动子难以直接建立深度学习模型和对整体模式进行提取。

针对这一问题,研究团队创新提出了一种知识引导与数据驱动相融合的智能设计策略DeepSEED(图1):首先基于人类专家擅长在小样本中识别明确强特征模式的特点,利用专家知识定义与启动子功能相关的重要显式模式例如TFBS或专家任意设定的序列片段作为“种子”;在此基础上,借助深度学习模型在大型数据集中提取隐含弱模式的强大能力,在海量数据中学习旁侧序列与种子序列间隐式匹配关系,进而基于条件生成式模型产生与“种子”相匹配的完整启动序列,并对序列整体进行全局优化。DeepSEED方法由两个深度学习模块组成,一个条件式生成对抗网络(cGAN)用于捕获显式和隐式模式之间的依赖关系,一个基于DenseNet-LSTM的预测模型来评估启动子性能,并利用遗传算法对这两个模型进行偶联,通过模型迭代实现功能启动子的优化设计。在实际应用过程中,研究者可以任意指定已知生物调控序列作为“种子”,模型通过学习大数据中旁侧序列的调控规律对“种子”的旁侧序列进行补全,提升启动子的整体转录活性,从而实现启动子的按需优化设计。

研究团队成功将该方法成功应用于大肠杆菌内组成型启动子、IPTG诱导型启动子,和哺乳动物细胞内Dox诱导型启动子的优化设计(图2)。尤为值得一提的是,研究团队选择在生命科学研究中广泛使用的、近三十年来未能被进一步优化的哺乳动物细胞Dox诱导型Tet-On调控系统作为研究对象,实验表明77.8%的人工启动子表现出诱导活性提高,83.3%的人工启动子表现出更高的诱导倍数(图3)。生成的合成启动子表现出了高度的序列多样性、与天然基因组序列的低相似性,同时保留了天然序列中k-mer频率等特征,并优化了DNA大沟、小沟偏好、偏转角等整体形状属性,大幅提升了合成启动子的转录活性和诱导率等关键性能,并在多种不同培养条件和细胞类型中表现鲁棒。

 

综上所述,该研究基于知识引导与数据驱动相融合的创新策略,建立了人工智能辅助的启动子序列优化方法DeepSEED,能够有效突破功能启动子设计中维度高、样本小的核心难题,为研究者提供了可用于旁侧序列优化和多类型启动子设计的人工智能辅助工具,有望为合成生物学研究提供基础性的设计工具和多样化的调控元件。

清华大学自动化系博士研究生张鹏程、博士研究生王昊晨与硕士研究生许涵文为该论文的共同第一作者,清华大学汪小我教授为通讯作者。清华大学的魏磊、刘莉扬、胡志睿等也对本文做出了重要贡献。该研究得到了国家自然科学基金、国家重点研发计划、清华大学国强研究院项目的资助。

 

文字:汪小我团队

编辑:沈碧莹

审核:周亚

终审:石宗英