文章目录
- 介绍
- 代码
- 参考
介绍
单细胞 Hi-C(scHi-C)技术极大地促进了我们对三维基因组结构的理解。然而,scHi-C 数据往往较为稀疏且存在噪声,这给后续分析带来了巨大的计算难题。
结果
在本研究中,我们推出了 SHICEDO 这一新型深度学习模型,其专门用于通过生成对抗框架来填补缺失或稀疏捕捉到的染色质联系中的空白,从而增强 scHi-C 联系矩阵。SHICEDO 利用 scHi-C 矩阵的独特结构特征来提取定制特征,从而实现有效的数据增强。此外,该模型还采用了通道级注意力机制,以缓解 scHi-C 增强方法中常见的过度平滑问题。通过模拟和实际数据应用,我们证明 SHICEDO 比现有最先进的方法表现更优,取得了更出色的定量和定性结果。此外,SHICEDO 增强了 scHi-C 数据中的关键结构特征,从而能够更精确地描绘染色质结构,如 A/B 区域、TAD 类似域和染色质环。
三维(3D)基因组结构对于关键生物学过程的调控至关重要,例如基因转录、DNA 复制和细胞分裂(米斯利 2020 年)。Hi-C 技术(利伯曼-艾登等人 2009 年、段等人 2010 年、拉奥等人 2014 年、马等人 2015 年)能够对染色质相互作用进行全基因组范围的定位,从而揭示了三维基因组组织的原理。对 Hi-C 相互作用频率矩阵的分析揭示了染色质组织的多个层次,包括活跃和不活跃(A/B)区域(利伯曼-艾登等人 2009 年)、拓扑相关区域(TADs)(迪肯等人 2012 年)以及染色质环(拉奥等人 2014 年)。
近来,单细胞 Hi-C(scHi-C)技术的出现(Nagano 等人,2013 年、2017 年;Ramani 等人,2017 年)进一步推动了该领域的革新,使我们能够以单细胞水平研究三维基因组结构,从而为单个细胞的空间基因组组织的变异性及动态变化提供了宝贵的见解。然而,由于实验限制和高昂的测序成本,scHi-C 数据目前仅限于少数细胞系或组织。此外,现有的 scHi-C 数据集往往存在低测序深度、大量稀疏性、实验偏差和噪声等问题,所有这些都给后续的数据分析带来了巨大的计算挑战。在这些挑战中,低测序深度和稀疏性尤为关键,因为它们极大地阻碍了对 scHi-C 数据的全面分析。
为解决这一难题,已开发出多种计算方法,通常被称为填补或数据增强方法。这些方法旨在推断缺失或稀疏记录的染色质接触信息,并通过计算手段增加有效的测序深度,从而减少稀疏性,提高单细胞高通量染色质构象测序(scHi-C)数据的整体数据质量和可解释性。由于 scHi-C 数据具有固有的稀疏特性,因此这些方法通常不会以传统意义上的方式提高 scHi-C 矩阵的分辨率,即它们不会缩小基因组区间大小或增加接触矩阵的维度。
例如,scHiCluster(周等人,2019 年)使用卷积和随机游走重启(RWR)插补来缓解数据稀疏性,以便在后续聚类操作前进行处理。同样,SnapHiC(于等人,2021 年)使用基于 RWR 的插补来改进环路检测。然而,基于卷积和随机游走的插补策略往往依赖于局部信息,这可能会引入虚假的正向接触,并导致过度平滑,即在插补矩阵中精细结构细节被掩盖的现象。scHiCcompare(阮等人,2025 年)提出了另一种方法:它通过使用距离感知随机森林模型将基因组距离衰减纳入其设计中,对具有相似基因组距离的染色质接触进行分组进行插补。尽管这有助于减少无关接触带来的偏差,但它仍可能因在相似距离之间借用信息而不保留精细结构而导致过度平滑。Zhang等人(2022 年)引入了 Higashi,这是一种基于超图的深度学习方法,旨在解决 scHi-C 数据中的稀疏性问题。通过将 scHi-C 数据概念化为超图,矢西有效地利用了细胞间的全局信息,通过将来自相似细胞的信号进行汇总来增强共有的染色质特征。虽然矢西提高了 scHi-C 数据的质量,但其聚合策略也可能引入过度平滑(如图 S1 所示,可在生物信息学在线网站的补充数据中获取)。过度平滑的 scHi-C 矩阵往往会丢失精细的结构细节,这可能导致对染色质特征的错误识别。此外,过度平滑还可能无意中降低细胞间的变异性。
另外,基于深度学习的方法已被开发出来以增强 Hi-C 数据。这些方法通常采用监督学习框架,在这个框架中,一个降采样的矩阵会被增强以逼近原始高覆盖度的 Hi-C 矩阵。已经开发出了几种卷积神经网络(CNN)和生成对抗网络(GAN)模型来增强大规模 Hi-C 数据,包括 HiCPlus(Zhang 等人,2018 年)、hicGAN(Liu 等人,2019 年)、DeepHiC(Hong 等人,2020 年)和 EnHiC(Hu 和 Ma,2021 年)。虽然最初是为大规模 Hi-C 数据设计的,但这些方法也可以适用于稀疏的 scHi-C 数据。然而,这种适应往往会导致 scHi-C 矩阵过度平滑(见图 S1,可在生物信息学在线网站的补充数据中获取)。最近,ScHiCEDRN(Wang 等人,2023 年)被开发出来,通过将 scHi-C 数据视为单通道图像,并使用受超分辨率成像技术启发的 GAN 框架来增强 scHi-C 数据。虽然这种方法很有前景,但偶尔会产生图像伪影,并且倾向于预测过多的假阳性接触(见图 S1,可在生物信息学在线网站的补充数据中获取)。
传统
代码
https://github.com/wmalab/SHICEDO
参考
- SHICEDO: single-cell Hi-C data enhancement with reduced over-smoothing
- https://github.com/wmalab/SHICEDO