news 2026/1/13 13:39:53

【文献分享】PROTRIDER利用条件自编码器从基于质谱的蛋白质组学数据中检测蛋白质丰度异常值

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【文献分享】PROTRIDER利用条件自编码器从基于质谱的蛋白质组学数据中检测蛋白质丰度异常值

文章目录

    • 介绍
    • 代码
    • 参考

介绍

对基因调控异常的检测能够增强我们解读遗传和获得性基因变异对罕见疾病诊断和肿瘤特征的影响的能力。尽管已有众多方法可用于从 RNA 测序数据中识别 RNA 表达的异常值,但利用质谱数据从其中识别蛋白质表达的异常值却尚未实现。
在此,我们提出并评估了多种建模方法,以在三个来自罕见疾病诊断和肿瘤学的数据集上识别蛋白质表达的异常值。我们以独立证据的形式使用匹配的 RNA 测序样本中异常值的富集情况以及可能破坏蛋白质表达的罕见变异的富集情况。我们表明,在控制隐藏的混杂因素和技术协变量的同时,同时对缺失值的发生情况进行建模,这在很大程度上是有益的,并且可以使用条件自编码器来实现。此外,我们发现,此类模型计算的实验和拟合的对数转换强度之间的差异呈现出重尾分布,这种分布用高斯分布难以捕捉,并且使用学生 t 分布时报告的统计校准效果更强。我们所提出的“PROTRIDER”方法在性能上优于基于原始对数强度 Z 分数、主成分分析以及基于孤立性异常检测(如孤立森林)的基线方法。PROTRIDER 的应用揭示了蛋白质表达异常值中阿尔法错义致病性变异体的显著丰富情况。总的来说,PROTRIDER 提供了一种可靠的方法,能够识别出异常表达的蛋白质,这在罕见疾病诊断和癌症蛋白质组学研究中具有重要意义。


在组学数据中检测异常值(即那些明显偏离总体、可能暗示致病基因的值)对于罕见疾病的诊断具有重要意义(Cummings 等人 2017 年、Kremer 等人 2017 年、Yépez 等人 2022 年、Smail 和 Montgomery 2024 年)。重要的是,组学数据中的异常值检测通过提供对意义不确定的变异的实用解读,补充了基因组测序数据,因为这些解读在其他情况下是不确定的。对于 RNA 测序丰度、剪接和染色质可及性,已经建立了异常值检测方法(Brechtmann 等人 2018 年、Jenkinson 等人 2020 年、Salkovic 等人 2020 年、Mertes 等人 2021 年、Labory 等人 2022 年、Salkovic 等人 2023 年、Scheller 等人 2023 年、Segers 等人 2023 年、Çelik 等人 2024 年)。然而,DNA 可及性和 RNA 测序无法捕捉所有致病变异的影响。某些变异可能会影响翻译或蛋白质稳定性,而不会影响染色质可及性或基因表达。为了实现这些效果,基于质谱的蛋白质组学研究成为一种探究蛋白质含量的途径,可作为额外的功能性证据(科帕伊奇奇等人,2021 年;维亚勒等人,2022 年;霍克等人,2025 年;崔等人,2025 年)。对蛋白质表达异常现象的关注也延伸到了癌症研究领域,旨在表征不同分子层面的改变、寻找生物标志物以及解释药物敏感性(罗梅洛蒂斯等人,2017 年;弗雷尼奥等人,2020 年)。
多项研究表明,基因表达、剪接以及染色质可及性数据的测量结果呈现出由生物学和技术因素(如组织类型、体内采样部位、性别、批次、测序中心、死亡原因、测序设备、年龄和读长)驱动的协变模式(Kremer 等人,2017 年;Frésard 等人,2019 年;Mertes 等人,2021 年;Yépez 等人,2021 年;Çelik 等人,2024 年)。在这些不同模态中,对这些协变源进行调整对于富集基因变异的直接调控作用具有显著益处。生物和技术方面的协变源也适用于标记蛋白质组学实验。值得注意的是,在同一批质谱运行中一起分析的样本之间的相关性比来自不同批次的样本更强,特别是在串联质谱标签定量蛋白质组学中(Brenes 等人,2019 年;Zecha 等人,2019 年;Phua 等人,2022 年)。在之前的一项研究中,我们提出使用条件自编码器来识别蛋白质水平的异常值,以考虑隐藏的混杂因素,并报告了与缺乏这种调整的方法相比的改进(Kopajtich 等人,2021 年)。
在此,我们对之前的工作进行了扩展和强化,并推出了 PROTRIDER。在方法上,我们研究了一种获取最优编码维度的替代策略,对缺失值的出现进行了建模,将线性自动编码器与非线性自动编码器进行了比较,并基于学生 t 分布与高斯分布进行了统计评估。此外,我们还将基准扩展到另外两个肿瘤细胞系的蛋白质组学数据集,并对匹配的 RNA 测序样本中的表达异常值进行了富集分析。最后,我们研究了检测到的异常蛋白质丰度的遗传决定因素,发现表现出蛋白质表达异常的基因在 AlphaMissense 预测为致病的错义变异中高度富集(Cheng 等人,2023 年)。

代码

https://github.com/gagneurlab/PROTRIDER

参考

  • protein abundance outlier detection from mass spectrometry-based proteomics data with a conditional autoencoder
  • https://github.com/gagneurlab/PROTRIDER
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/13 12:43:57

软件世界的契约:理解开源协议的逻辑与边界

在软件开发领域,代码的公开并不等同于权利的放弃。如果你认为只要代码上传到了 GitHub 就可以被随意使用,这种想法在法律层面是极其危险的。开源协议本质上是著作权人授予用户的一种权利许可,它定义了别人可以如何处理你的代码,以…

作者头像 李华
网站建设 2026/1/12 16:49:07

vue和springboot框架开发的小程序 智能包裹配送服务管理系统_q3k407ra

文章目录具体实现截图主要技术与实现手段关于我本系统开发思路java类核心代码部分展示结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!具体实现截图 同行可拿货,招校园代理 vueSpringboot智能包裹配送服务管理系统_钱快07ra 框…

作者头像 李华
网站建设 2025/12/25 21:38:01

C 语言输入与输出(I/O)详解

C 语言输入与输出(I/O)详解 引言 C 语言作为一种广泛使用的编程语言,其输入与输出(I/O)操作是编程中不可或缺的部分。本文将深入探讨 C 语言中的输入与输出操作,包括标准输入输出、文件操作以及如何提高 I/O 效率。 标准输入输出 标准输入 在 C 语言中,标准输入通常…

作者头像 李华
网站建设 2025/12/24 10:18:04

软件测试成本的多维解析与优化路径

在软件开发的生命周期中,测试环节的成本投入直接影响项目的质量底线与商业回报。根据业界研究,测试成本通常占据项目总预算的15%-40%,这一比例在金融、医疗等高可靠性要求的领域甚至更高。对测试成本构成的深刻理解,不仅关乎资源调…

作者头像 李华
网站建设 2026/1/13 2:32:43

5-脱氧-L-阿拉伯糖—结构独特的稀有单糖,药物设计与合成化学的宝贵砌块 CAS:13039-56-0

5-脱氧-L-阿拉伯糖是一种天然存在但相对稀有的五碳脱氧单糖,其独特的L-构型与脱氧结构赋予其区别于常见D-型糖的化学与生物学特性。作为手性合成与药物化学中的高价值砌块,它正日益受到糖化学、抗感染药物研发及糖生物学研究领域的关注。化学信息化学名称…

作者头像 李华
网站建设 2026/1/11 8:33:51

2-乙酰胺基-1,3,4,6-四-O-乙酰基-2-脱氧-5-硫代-α-D-吡喃葡萄糖 —— 糖化学与药物研发的关键砌块 CAS:67561-97-1

2-乙酰胺基-1,3,4,6-四-O-乙酰基-2-脱氧-5-硫代-α-D-吡喃葡萄糖是糖化学与糖药物研究领域中一类重要的修饰单糖衍生物。作为5-硫代葡萄糖的结构前体与保护形式,它不仅是糖生物学基础研究的关键工具分子,更为开发新型糖基化抑制剂、糖模拟药物及诊断探针…

作者头像 李华