当前位置: 网站首页 >AI教程资讯 >正文

ProtGPS – 麻省理工学院等机构推出的蛋白质语言模型

来源:爱论文 时间:2025-03-20 13:06:28

ProtGPS是什么

ProtGPS(Protein Localization Prediction Model)是麻省理工学院(MIT)和怀特黑德生物医学研究所推出的,基于深度学习的蛋白质语言模型,用在预测蛋白质在细胞内的亚细胞定位。ProtGPS基于分析蛋白质的氨基酸序列,用进化尺度的蛋白质变换器(Transformer)架构学习序列中的复杂模式和相互关系。ProtGPS能预测蛋白质在12种不同亚细胞区域(如核仁、核斑点等)的分布概率,成功指导生成能特异性组装到特定亚细胞区域的新型蛋白质序列。ProtGPS能识别导致蛋白质亚细胞定位改变的致病突变,为理解细胞功能和疾病机制提供新的工具和视角。

ProtGPS

ProtGPS的主要功能

预测蛋白质在细胞内的分布:预测蛋白质在12种不同亚细胞区域(如核仁、核斑点、应激颗粒等)的定位概率。设计具有特定亚细胞定位的蛋白质:生成新的蛋白质序列,特异性地组装到目标亚细胞区域(如核仁或核斑点)。识别致病突变对蛋白质定位的影响:分析突变对蛋白质亚细胞定位的影响,预测致病突变是否会导致蛋白质分布异常。

ProtGPS的技术原理

基于Transformer的序列学习:基于ESM2(Evolutionary Scale Model 2)架构,一种基于Transformer的蛋白质语言模型。同时学习输入序列中所有氨基酸之间的关系,捕捉蛋白质序列中的复杂模式和相互作用。神经网络分类器联合训练:将ESM2与神经网络分类器联合训练。分类器的任务是根据ESM2提取的特征,预测蛋白质在不同亚细胞区域的定位概率。训练数据集包括5480个人类蛋白质序列,序列被注释为属于12种不同的亚细胞区域,学习到不同亚细胞区域的蛋白质序列特征。生成蛋白质序列的算法:为设计具有特定亚细胞定位的蛋白质,用马尔可夫链蒙特卡洛(MCMC)算法。在生成蛋白质序列时,考虑蛋白质的化学空间和内在无序性,确保生成的序列符合自然蛋白质的分布,能特异性地定位到目标亚细胞区域。致病突变分析:分析致病突变对蛋白质亚细胞定位的影响。比较野生型和突变型蛋白质的定位预测结果,识别那些导致蛋白质分布改变的突变。用信息论中的Shannon熵和Wasserstein距离,用在量化突变对蛋白质定位预测不确定性的影响。

ProtGPS的项目地址

GitHub仓库:https://github.com/pgmikhael/protgpsarXiv技术论文:https://www.biorxiv.org/content

ProtGPS的应用场景

疾病机制研究:识别致病突变对蛋白质亚细胞定位的影响,帮助理解疾病发病机制。蛋白质工程与药物设计:设计具有特定亚细胞定位的蛋白质,用在开发新型蛋白质药物或生物传感器。细胞生物学研究:预测蛋白质在不同亚细胞区域的定位,助力细胞内蛋白质功能和相互作用的研究。基因治疗与基因编辑:设计特异性靶向亚细胞区域的基因编辑工具,提高基因编辑的效率和特异性。蛋白质功能注释与数据库构建:为蛋白质功能研究提供线索,助力构建更全面的蛋白质功能数据库。
上一篇:potpie.ai – AI代码库Agent构建平台,自动化代码分析、测试和开发任务
相关资讯 更多+
  • ProtGPS – 麻省理工学院等机构推出的蛋白质语言模型
    ProtGPS – 麻省理工学院等机构推出的蛋白质语言模型

    ProtGPS(Protein Localization Prediction Model)是麻省理工学院(MIT)和怀特黑德生物医学研究所推出的,基于深度学习的蛋白质语言模型,用在预测蛋白质在细胞内的亚细胞定位。ProtGPS基于分析蛋白质的氨基酸序列,用进化尺度的蛋白质变换器(Transformer)架构学习序列中的复杂模式和相互关系。

    AI教程资讯 2023-04-14

  • potpie.ai – AI代码库Agent构建平台,自动化代码分析、测试和开发任务
    potpie.ai – AI代码库Agent构建平台,自动化代码分析、测试和开发任务

    potpie ai 是开源平台,基于AI技术为代码库创建定制化的工程代理(Agents)。potpie ai基于构建代码库的知识图谱,深度理解代码组件之间的关系,实现自动化代码分析、测试和开发任务。potpie ai提供多种预构建的代理,例如调试代理、代码库问答代理、代码变更代理、集成测试代理、单元测试代理、低层次设计代理和代码生成代理等。

    AI教程资讯 2023-04-14

  • MoMask – 文本驱动生成高质量3D人体动作的模型
    MoMask – 文本驱动生成高质量3D人体动作的模型

    MoMask是创新的3D人体动作生成工具,通过生成式掩码建模技术,能根据文本描述生成高质量的3D人体动作。MoMask采用分层量化方案,将人体运动表示为多层离散的运动标记,结合掩码Transformer和残差Transformer来生成动作序列。

    AI教程资讯 2023-04-14

  • UltraMem – 字节豆包大模型团队推出的全新超稀疏模型架构
    UltraMem – 字节豆包大模型团队推出的全新超稀疏模型架构

    UltraMem 是字节跳动豆包大模型团队提出的全新超稀疏模型架构,解决传统 MoE 架构在推理时的高额访存问题。架构通过优化内存访问和计算效率,显著降低推理成本,推理速度较 MoE 提升了2-6倍,成本最高可降低83%。

    AI教程资讯 2023-04-14

最新录入 更多+
确定