news 2026/2/5 10:36:39

【文献分享】SHICEDO:通过减少过度平滑处理来增强单细胞 Hi-C 数据

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【文献分享】SHICEDO:通过减少过度平滑处理来增强单细胞 Hi-C 数据

文章目录

    • 介绍
    • 代码
    • 参考

介绍

单细胞 Hi-C(scHi-C)技术极大地促进了我们对三维基因组结构的理解。然而,scHi-C 数据往往较为稀疏且存在噪声,这给后续分析带来了巨大的计算难题。
结果
在本研究中,我们推出了 SHICEDO 这一新型深度学习模型,其专门用于通过生成对抗框架来填补缺失或稀疏捕捉到的染色质联系中的空白,从而增强 scHi-C 联系矩阵。SHICEDO 利用 scHi-C 矩阵的独特结构特征来提取定制特征,从而实现有效的数据增强。此外,该模型还采用了通道级注意力机制,以缓解 scHi-C 增强方法中常见的过度平滑问题。通过模拟和实际数据应用,我们证明 SHICEDO 比现有最先进的方法表现更优,取得了更出色的定量和定性结果。此外,SHICEDO 增强了 scHi-C 数据中的关键结构特征,从而能够更精确地描绘染色质结构,如 A/B 区域、TAD 类似域和染色质环。

三维(3D)基因组结构对于关键生物学过程的调控至关重要,例如基因转录、DNA 复制和细胞分裂(米斯利 2020 年)。Hi-C 技术(利伯曼-艾登等人 2009 年、段等人 2010 年、拉奥等人 2014 年、马等人 2015 年)能够对染色质相互作用进行全基因组范围的定位,从而揭示了三维基因组组织的原理。对 Hi-C 相互作用频率矩阵的分析揭示了染色质组织的多个层次,包括活跃和不活跃(A/B)区域(利伯曼-艾登等人 2009 年)、拓扑相关区域(TADs)(迪肯等人 2012 年)以及染色质环(拉奥等人 2014 年)。
近来,单细胞 Hi-C(scHi-C)技术的出现(Nagano 等人,2013 年、2017 年;Ramani 等人,2017 年)进一步推动了该领域的革新,使我们能够以单细胞水平研究三维基因组结构,从而为单个细胞的空间基因组组织的变异性及动态变化提供了宝贵的见解。然而,由于实验限制和高昂的测序成本,scHi-C 数据目前仅限于少数细胞系或组织。此外,现有的 scHi-C 数据集往往存在低测序深度、大量稀疏性、实验偏差和噪声等问题,所有这些都给后续的数据分析带来了巨大的计算挑战。在这些挑战中,低测序深度和稀疏性尤为关键,因为它们极大地阻碍了对 scHi-C 数据的全面分析。
为解决这一难题,已开发出多种计算方法,通常被称为填补或数据增强方法。这些方法旨在推断缺失或稀疏记录的染色质接触信息,并通过计算手段增加有效的测序深度,从而减少稀疏性,提高单细胞高通量染色质构象测序(scHi-C)数据的整体数据质量和可解释性。由于 scHi-C 数据具有固有的稀疏特性,因此这些方法通常不会以传统意义上的方式提高 scHi-C 矩阵的分辨率,即它们不会缩小基因组区间大小或增加接触矩阵的维度。
例如,scHiCluster(周等人,2019 年)使用卷积和随机游走重启(RWR)插补来缓解数据稀疏性,以便在后续聚类操作前进行处理。同样,SnapHiC(于等人,2021 年)使用基于 RWR 的插补来改进环路检测。然而,基于卷积和随机游走的插补策略往往依赖于局部信息,这可能会引入虚假的正向接触,并导致过度平滑,即在插补矩阵中精细结构细节被掩盖的现象。scHiCcompare(阮等人,2025 年)提出了另一种方法:它通过使用距离感知随机森林模型将基因组距离衰减纳入其设计中,对具有相似基因组距离的染色质接触进行分组进行插补。尽管这有助于减少无关接触带来的偏差,但它仍可能因在相似距离之间借用信息而不保留精细结构而导致过度平滑。Zhang等人(2022 年)引入了 Higashi,这是一种基于超图的深度学习方法,旨在解决 scHi-C 数据中的稀疏性问题。通过将 scHi-C 数据概念化为超图,矢西有效地利用了细胞间的全局信息,通过将来自相似细胞的信号进行汇总来增强共有的染色质特征。虽然矢西提高了 scHi-C 数据的质量,但其聚合策略也可能引入过度平滑(如图 S1 所示,可在生物信息学在线网站的补充数据中获取)。过度平滑的 scHi-C 矩阵往往会丢失精细的结构细节,这可能导致对染色质特征的错误识别。此外,过度平滑还可能无意中降低细胞间的变异性。
另外,基于深度学习的方法已被开发出来以增强 Hi-C 数据。这些方法通常采用监督学习框架,在这个框架中,一个降采样的矩阵会被增强以逼近原始高覆盖度的 Hi-C 矩阵。已经开发出了几种卷积神经网络(CNN)和生成对抗网络(GAN)模型来增强大规模 Hi-C 数据,包括 HiCPlus(Zhang 等人,2018 年)、hicGAN(Liu 等人,2019 年)、DeepHiC(Hong 等人,2020 年)和 EnHiC(Hu 和 Ma,2021 年)。虽然最初是为大规模 Hi-C 数据设计的,但这些方法也可以适用于稀疏的 scHi-C 数据。然而,这种适应往往会导致 scHi-C 矩阵过度平滑(见图 S1,可在生物信息学在线网站的补充数据中获取)。最近,ScHiCEDRN(Wang 等人,2023 年)被开发出来,通过将 scHi-C 数据视为单通道图像,并使用受超分辨率成像技术启发的 GAN 框架来增强 scHi-C 数据。虽然这种方法很有前景,但偶尔会产生图像伪影,并且倾向于预测过多的假阳性接触(见图 S1,可在生物信息学在线网站的补充数据中获取)。
传统

代码

https://github.com/wmalab/SHICEDO

参考

  • SHICEDO: single-cell Hi-C data enhancement with reduced over-smoothing
  • https://github.com/wmalab/SHICEDO
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/4 10:20:21

AutoUnipus终极指南:如何5分钟轻松搞定U校园网课困扰?

AutoUnipus终极指南:如何5分钟轻松搞定U校园网课困扰? 【免费下载链接】AutoUnipus U校园脚本,支持全自动答题,百分百正确 2024最新版 项目地址: https://gitcode.com/gh_mirrors/au/AutoUnipus 还在为U校园繁重的网课任务而头疼吗?每…

作者头像 李华
网站建设 2026/2/5 19:31:45

解锁Uncle小说桌面阅读器:打造个人数字图书馆的完整指南

解锁Uncle小说桌面阅读器:打造个人数字图书馆的完整指南 【免费下载链接】uncle-novel 📖 Uncle小说,PC版,一个全网小说下载器及阅读器,目录解析与书源结合,支持有声小说与文本小说,可下载mobi、…

作者头像 李华
网站建设 2026/2/4 16:46:42

农产品销售系统|基于springboot + vue农产品销售系统(源码+数据库+文档)

农产品销售系统 目录 基于springboot vue农产品销售系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于springboot vue农产品销售系统 一、前言 博主介绍&#x…

作者头像 李华
网站建设 2026/2/5 1:30:14

抖音去水印终极指南:3分钟批量下载用户全作品

抖音去水印终极指南:3分钟批量下载用户全作品 【免费下载链接】TikTokDownload 抖音去水印批量下载用户主页作品、喜欢、收藏、图文、音频 项目地址: https://gitcode.com/gh_mirrors/ti/TikTokDownload 还在为抖音视频的水印而烦恼?想要批量保存…

作者头像 李华
网站建设 2026/2/4 23:39:48

20、马尔可夫链与网页搜索相关知识解析

马尔可夫链与网页搜索相关知识解析 1. 马尔可夫链的删失概率分布 考虑一个具有 (n) 个状态的不可约马尔可夫链,其转移概率矩阵为 (P),平稳分布为 (\pi^T = (\pi_1^T|\pi_2^T|\cdots|\pi_k^T)),状态空间按如下方式划分: ({1, 2, \cdots, n} = S_1 \cup S_2 \cup \cdots \…

作者头像 李华