文章目录
- 介绍
- 代码
- 参考
介绍
对基因调控异常的检测能够增强我们解读遗传和获得性基因变异对罕见疾病诊断和肿瘤特征的影响的能力。尽管已有众多方法可用于从 RNA 测序数据中识别 RNA 表达的异常值,但利用质谱数据从其中识别蛋白质表达的异常值却尚未实现。
在此,我们提出并评估了多种建模方法,以在三个来自罕见疾病诊断和肿瘤学的数据集上识别蛋白质表达的异常值。我们以独立证据的形式使用匹配的 RNA 测序样本中异常值的富集情况以及可能破坏蛋白质表达的罕见变异的富集情况。我们表明,在控制隐藏的混杂因素和技术协变量的同时,同时对缺失值的发生情况进行建模,这在很大程度上是有益的,并且可以使用条件自编码器来实现。此外,我们发现,此类模型计算的实验和拟合的对数转换强度之间的差异呈现出重尾分布,这种分布用高斯分布难以捕捉,并且使用学生 t 分布时报告的统计校准效果更强。我们所提出的“PROTRIDER”方法在性能上优于基于原始对数强度 Z 分数、主成分分析以及基于孤立性异常检测(如孤立森林)的基线方法。PROTRIDER 的应用揭示了蛋白质表达异常值中阿尔法错义致病性变异体的显著丰富情况。总的来说,PROTRIDER 提供了一种可靠的方法,能够识别出异常表达的蛋白质,这在罕见疾病诊断和癌症蛋白质组学研究中具有重要意义。
在组学数据中检测异常值(即那些明显偏离总体、可能暗示致病基因的值)对于罕见疾病的诊断具有重要意义(Cummings 等人 2017 年、Kremer 等人 2017 年、Yépez 等人 2022 年、Smail 和 Montgomery 2024 年)。重要的是,组学数据中的异常值检测通过提供对意义不确定的变异的实用解读,补充了基因组测序数据,因为这些解读在其他情况下是不确定的。对于 RNA 测序丰度、剪接和染色质可及性,已经建立了异常值检测方法(Brechtmann 等人 2018 年、Jenkinson 等人 2020 年、Salkovic 等人 2020 年、Mertes 等人 2021 年、Labory 等人 2022 年、Salkovic 等人 2023 年、Scheller 等人 2023 年、Segers 等人 2023 年、Çelik 等人 2024 年)。然而,DNA 可及性和 RNA 测序无法捕捉所有致病变异的影响。某些变异可能会影响翻译或蛋白质稳定性,而不会影响染色质可及性或基因表达。为了实现这些效果,基于质谱的蛋白质组学研究成为一种探究蛋白质含量的途径,可作为额外的功能性证据(科帕伊奇奇等人,2021 年;维亚勒等人,2022 年;霍克等人,2025 年;崔等人,2025 年)。对蛋白质表达异常现象的关注也延伸到了癌症研究领域,旨在表征不同分子层面的改变、寻找生物标志物以及解释药物敏感性(罗梅洛蒂斯等人,2017 年;弗雷尼奥等人,2020 年)。
多项研究表明,基因表达、剪接以及染色质可及性数据的测量结果呈现出由生物学和技术因素(如组织类型、体内采样部位、性别、批次、测序中心、死亡原因、测序设备、年龄和读长)驱动的协变模式(Kremer 等人,2017 年;Frésard 等人,2019 年;Mertes 等人,2021 年;Yépez 等人,2021 年;Çelik 等人,2024 年)。在这些不同模态中,对这些协变源进行调整对于富集基因变异的直接调控作用具有显著益处。生物和技术方面的协变源也适用于标记蛋白质组学实验。值得注意的是,在同一批质谱运行中一起分析的样本之间的相关性比来自不同批次的样本更强,特别是在串联质谱标签定量蛋白质组学中(Brenes 等人,2019 年;Zecha 等人,2019 年;Phua 等人,2022 年)。在之前的一项研究中,我们提出使用条件自编码器来识别蛋白质水平的异常值,以考虑隐藏的混杂因素,并报告了与缺乏这种调整的方法相比的改进(Kopajtich 等人,2021 年)。
在此,我们对之前的工作进行了扩展和强化,并推出了 PROTRIDER。在方法上,我们研究了一种获取最优编码维度的替代策略,对缺失值的出现进行了建模,将线性自动编码器与非线性自动编码器进行了比较,并基于学生 t 分布与高斯分布进行了统计评估。此外,我们还将基准扩展到另外两个肿瘤细胞系的蛋白质组学数据集,并对匹配的 RNA 测序样本中的表达异常值进行了富集分析。最后,我们研究了检测到的异常蛋白质丰度的遗传决定因素,发现表现出蛋白质表达异常的基因在 AlphaMissense 预测为致病的错义变异中高度富集(Cheng 等人,2023 年)。
代码
https://github.com/gagneurlab/PROTRIDER
参考
- protein abundance outlier detection from mass spectrometry-based proteomics data with a conditional autoencoder
- https://github.com/gagneurlab/PROTRIDER