news 2026/6/23 21:25:44

开源医疗相关数据集

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
开源医疗相关数据集

英文开源数据集(类似MTSamples的医疗转录/对话/摘要)

这些数据集多为英文,适合abstractive summarization或医疗对话任务:

  • Medical Speech, Transcription, and Intent(Kaggle/Hugging Face: Hani89/medical_asr_recording_dataset) → 包含数千条医疗症状音频(如“knee pain”)及其转录文本,总时长超8小时。适合ASR转录或症状识别。
  • United-Syn-Med(Hugging Face: united-we-care/United-Syn-Med) → 英文医疗语音记录,焦点在临床对话和医学术语,转录文本可用。适合自动化转录和摘要。
  • MeQSum(Hugging Face: sumedh/MeQSum) → 1000条消费者健康问题及其摘要,专为医疗问题摘要任务设计。
  • MedReview(从Cochrane系统综述) → 8161对医疗证据总结对,适合证据摘要任务。
  • MS^2 (Multi-Document Summarization of Medical Studies)→ 超47万条医疗研究多文档摘要数据集。

这些在Hugging Face上直接加载,适合你的BioMistral微调扩展。

中文开源数据集(强烈推荐)

中文医疗开源数据集相对较少(隐私原因),但有几个高质量的,特别适合医患对话、病情识别和摘要生成:

  • Chinese-medical-dialogue-data(GitHub: Toyhom/Chinese-medical-dialogue-data;Hugging Face多个版本如BillGPT/Chinese-medical-dialogue-data) 最经典的中文医疗对话数据集,包含约79万-110万条医患对话(覆盖内科、儿科、妇产科、肿瘤科、男科、外科等6大科室),总计400万+话语。数据来源于在线医疗平台(如haodf.com),包括患者描述、医生回复,非常适合你的任务(转录摘要 + 病情识别)。许多中文医疗大模型(如HuatuoGPT)都用它微调。
  • MedDialog-CN(Hugging Face: UCSD26/medical_dialog 或类似) 中文医患对话数据集,约110万对话,持续更新。类似以上,焦点在真实临床交流。
  • shibing624/medical(Hugging Face) 综合中文医疗数据集,包含195万+条指令数据(部分来自Chinese-medical-dialogue-data + 医疗百科 + 知识图谱QA),专为医疗SFT设计。包括预训练和微调部分,非常适合直接用于你的模型。
  • Huatuo-26M / huatuo_encyclopedia_qa(Hugging Face: FreedomIntelligence系列) 中医问答数据集,超2600万条,覆盖疾病、症状、治疗等。适合中医方向的病情识别和摘要。
  • CMeEE / CBLUE数据集(中文医疗NLP基准) 包含实体识别、关系抽取等,但也可扩展到对话/摘要。GitHub: GanjinZero/awesome_Chinese_medical_NLP 有完整整理。

更多资源推荐:

  • Awesome-Chinese-Medical-NLP(GitHub: GanjinZero/awesome_Chinese_medical_NLP) → 最全面的中文医疗NLP资源列表,包括数据集、预训练模型、知识图谱等。
  • Awesome-Medical-Dataset(GitHub: openmedlab/Awesome-Medical-Dataset) → 全球医疗数据集合集,有部分中文。

1. 综合性评测基准 (The "Gold Standard")

如果你想找最权威的数据,首推CBLUE

  • 数据集名称:CBLUE (Chinese Biomedical Language Understanding Evaluation)

  • 简介: 这是中文医疗NLP领域的“标尺”,由阿里天池发布。它不是一个单一的数据集,而是一个合集,包含了多个子任务。

  • 包含内容:

    • CMeEE: 中文医学命名实体识别(找药名、病名)。

    • CMeIE: 中文医学关系抽取(判断药和病的关系)。

    • CHIP-CDN: 临床术语标准化(把口语“拉肚子”对应到标准术语“腹泻”)。

    • CHIP-CDE: 临床发现事件抽取。

    • KUAKE-QIC: 医疗搜索意图理解。

  • 适用场景: 如果你想让模型学会“理解”医学术语,而不是只会聊天,必用这个。

  • 获取方式: GitHub (CBLUE) 或 天池大赛官网。

2. 对话与问答类 (类似 mtsamples 的用途)

如果你想训练一个能像医生一样问诊、给出建议的模型,这类数据最重要。

  • 数据集名称:Huatuo-26M (华佗-26M)

  • 简介: 目前最大规模的中文医疗问答数据集之一,包含超过 2600 万条高质量的医疗问答对。

  • 来源: 整合了互联网上的在线问诊记录、医学百科、知识图谱等。

  • 适用场景:SFT (指令微调)的首选。可以直接用来把通用模型变成医疗专家。

  • 获取方式: Hugging Face (FreedomIntelligence/Huatuo-26M)。

  • 数据集名称:CMD (Chinese Medical Dialogue)

  • 简介: 包含了约 79 万条真实的医患对话

  • 特点: 涵盖儿科、外科、内科等多个科室。数据结构通常是<病人描述> - <医生回答>

  • 适用场景: 训练多轮对话能力,让模型学会医生问诊的语气。

  • 获取方式: GitHub (Toyhom/Chinese-medical-dialogue-data)。

  • 数据集名称:CMtMedQA

  • 简介: 包含中文医学问答对,规模较适中,质量较高。

3. 指令微调类 (Instruction Tuning)

这类数据已经整理成了Instruction(指令) -Input(输入) -Output(输出) 的格式,最适合你现在的train.py脚本

  • 数据集名称:DISC-MedLLM-SFT

  • 简介: 复旦大学发布的高质量SFT数据集,包含约 47 万条样本。

  • 特点: 经过了精心清洗,模拟了真实的医疗咨询场景。

  • 适用场景: 只有 3060 显卡,不想跑 2600 万条数据?跑这个 47 万条的不仅快,而且效果通常更好。

  • 获取方式: Hugging Face (Flan/DISC-MedLLM)。

  • 数据集名称:ChatMed-Consult

  • 简介: 基于 ChatGPT 生成或者是清洗后的在线问诊数据,专注于在线问诊场景。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/23 19:48:13

1688 商品详情接口深度解析:从百川签名突破到供应链数据重构

一、接口核心机制与 B 端风控体系拆解 1688 商品详情接口&#xff08;核心接口alibaba.item.get&#xff0c;基于阿里百川开放平台架构&#xff09;作为 B2B 电商供应链数据核心入口&#xff0c;采用「百川签名验证 商家等级权限校验 IP 白名单绑定」的三重防护架构&#xf…

作者头像 李华
网站建设 2026/6/23 19:21:12

LobeChat心理情绪日记分析工具

LobeChat心理情绪日记分析工具 在数字时代&#xff0c;人们越来越依赖技术来管理生活、提升效率。但与此同时&#xff0c;心理健康问题也日益凸显——压力、焦虑、孤独感成为现代人的共同挑战。传统的纸质日记或简单的笔记应用虽然能帮助记录情绪&#xff0c;却缺乏互动性与洞…

作者头像 李华
网站建设 2026/6/23 5:43:52

一文搞懂纸老虎-布隆过滤器

在工程里&#xff0c;我们经常遇到一种很现实的需求&#xff1a;我只想快速判断某个值“在不在集合里”。 最好别占太多内存&#xff0c;速度还要快。如果你把所有元素都放进 HashSet 或数据库索引里&#xff0c;当然能做到“准确判断”&#xff0c;但代价可能是&#xff1a;内…

作者头像 李华
网站建设 2026/6/23 20:42:02

LobeChat周年庆感恩回馈活动

LobeChat&#xff1a;构建下一代开源AI对话门户的技术实践 在大语言模型&#xff08;LLM&#xff09;席卷全球的今天&#xff0c;几乎每个人都体验过与AI“聊天”的奇妙感受。从最初的GPT-3到如今动辄千亿参数的超大规模模型&#xff0c;技术演进的速度令人惊叹。但当我们真正想…

作者头像 李华
网站建设 2026/6/23 3:30:42

运维系列数据库系列【仅供参考】:DM JOB作业的邮件发送

DM JOB作业的邮件发送DM JOB作业的邮件发送摘要正文DM JOB作业的邮件发送 摘要 本文详细介绍了如何在DM数据库和Oracle中利用DM作业系统与DBMS SCHEDULER系统包设置定时作业&#xff0c;以便在JOB执行完毕后自动发送邮件通知。涵盖了初始化作业环境、配置代理属性、创建作业与…

作者头像 李华
网站建设 2026/6/23 5:13:26

当AI面临伦理投诉时,AI应用架构师该怎么办?这5个解决步骤

当AI面临伦理投诉时&#xff0c;AI应用架构师该怎么办&#xff1f;这5个解决步骤 引言&#xff1a;AI伦理投诉的“灰犀牛”时刻 2020年&#xff0c;美国某法院使用的COMPAS算法因“对黑人被告的再犯率预测偏差高达45%”引发轩然大波&#xff1b;2022年&#xff0c;某社交平台的…

作者头像 李华