基于Baichuan-M2-32B的Python爬虫数据清洗实战：医疗文本智能处理-育师

基于Baichuan-M2-32B的Python爬虫数据清洗实战：医疗文本智能处理

1. 引言

医疗数据挖掘和科研分析中，爬虫技术是获取大量医疗文本数据的重要手段。然而，从各种医疗网站、论坛和文献库爬取的数据往往存在格式混乱、术语不统一、包含敏感信息等问题，直接使用这些原始数据会严重影响后续分析的准确性。

传统的医疗文本清洗方法通常依赖规则和词典，但面对复杂的医疗术语和多样的表达方式时，往往力不从心。比如"心肌梗死"可能被写成"心梗"、"心肌梗塞"，甚至英文缩写"MI"，传统方法很难做到全面覆盖。

Baichuan-M2-32B作为专为医疗场景设计的大模型，在医疗文本理解、术语标准化和敏感信息识别方面表现出色。本文将展示如何利用这个模型，结合Python爬虫技术，构建一个高效的医疗文本智能处理流水线。

2. 环境准备与模型部署

首先需要搭建基础环境，确保能够正常运行Baichuan-M2-32B模型。推荐使用Python 3.9+版本，并安装必要的依赖库。

pip install transformers torch requests beautifulsoup4 pandas numpy

对于模型加载，可以使用Hugging Face的Transformers库。由于模型较大，建议使用GPU环境运行：

from transformers import AutoTokenizer, AutoModelForCausalLM import torch # 加载模型和分词器 model_name = "baichuan-inc/Baichuan-M2-32B" tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained( model_name, torch_dtype=torch.float16, device_map="auto", trust_remote_code=True )

如果硬件资源有限，可以考虑使用4bit量化版本，在RTX 4090等消费级显卡上也能流畅运行：

# 使用量化版本 model = AutoModelForCausalLM.from_pretrained( "baichuan-inc/Baichuan-M2-32B-GPTQ-Int4", device_map="auto", trust_remote_code=True )

3. 医疗爬虫数据的特点与挑战

医疗领域的爬虫数据具有一些独特的特点，这些特点也带来了相应的处理挑战：

非结构化程度高：医疗论坛、问答平台上的文本往往包含大量的口语化表达、缩写和不完整的句子。比如患者可能会说"我最近老是心慌，去医院查了心电图，医生说有点早搏"，这种表述需要转化为规范的医学术语。

术语多样性：同一医疗概念可能有多种表达方式。例如"高血压"可能被表述为"血压高"、"高压病"，英文缩写"HTN"等。

敏感信息多：医疗数据中经常包含患者个人信息、病史细节等敏感内容，需要在处理过程中进行脱敏。

质量参差不齐：从不同来源爬取的数据质量差异很大，有些信息可能不准确甚至错误，需要验证和过滤。

4. 智能清洗流水线构建

基于Baichuan-M2-32B的能力，我们可以构建一个完整的医疗文本智能清洗流水线：

4.1 文本解析与结构化

首先对爬取的原始文本进行初步清理和解析：

import re from bs4 import BeautifulSoup def preprocess_medical_text(raw_text): """初步清理医疗文本""" # 去除HTML标签 if isinstance(raw_text, str) and '<' in raw_text and '>' in raw_text: soup = BeautifulSoup(raw_text, 'html.parser') text = soup.get_text() else: text = raw_text # 去除多余空白字符 text = re.sub(r'\s+', ' ', text).strip() # 处理常见的编码问题 text = text.encode('utf-8', 'ignore').decode('utf-8') return text

4.2 医学术语标准化

利用Baichuan-M2-32B的医疗知识进行术语标准化：

def standardize_medical_terms(text, max_length=512): """使用Baichuan-M2进行医学术语标准化""" prompt = f"""请将以下医疗文本中的术语标准化为规范医学术语： 原始文本：{text[:max_length]} 标准化后的文本：""" messages = [{"role": "user", "content": prompt}] formatted_text = tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True ) inputs = tokenizer(formatted_text, return_tensors="pt").to(model.device) with torch.no_grad(): outputs = model.generate( **inputs, max_new_tokens=256, temperature=0.1, do_sample=True ) result = tokenizer.decode(outputs[0], skip_special_tokens=True) # 提取标准化后的文本 standardized_text = result.split("标准化后的文本：")[-1].strip() return standardized_text

4.3 敏感信息识别与过滤

医疗数据中的敏感信息需要特别处理：

def detect_sensitive_info(text): """检测医疗文本中的敏感信息""" prompt = f"""请识别以下医疗文本中是否包含敏感个人信息（如姓名、电话、地址、身份证号等）： 文本：{text} 请回答"是"或"否"，然后列出发现的敏感信息类型：""" messages = [{"role": "user", "content": prompt}] formatted_text = tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True ) inputs = tokenizer(formatted_text, return_tensors="pt").to(model.device) with torch.no_grad(): outputs = model.generate( **inputs, max_new_tokens=128, temperature=0.1 ) result = tokenizer.decode(outputs[0], skip_special_tokens=True) return result

4.4 医疗实体提取与分类

从文本中提取关键的医疗实体信息：

def extract_medical_entities(text): """提取医疗实体信息""" prompt = f"""请从以下医疗文本中提取医疗实体信息，包括： 1. 症状/体征 2. 疾病/诊断 3. 检查/检验 4. 治疗/药物 5. 身体部位 文本：{text} 请按类别列出：""" messages = [{"role": "user", "content": prompt}] formatted_text = tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True ) inputs = tokenizer(formatted_text, return_tensors="pt").to(model.device) with torch.no_grad(): outputs = model.generate( **inputs, max_new_tokens=512, temperature=0.1 ) result = tokenizer.decode(outputs[0], skip_special_tokens=True) return result

5. 完整处理流程示例

下面是一个完整的医疗爬虫数据处理示例：

import pandas as pd from tqdm import tqdm def process_medical_data(raw_data_path, output_path): """处理医疗爬虫数据的完整流程""" # 读取原始数据 df = pd.read_csv(raw_data_path) processed_data = [] for index, row in tqdm(df.iterrows(), total=len(df)): try: # 初步清理 cleaned_text = preprocess_medical_text(row['raw_content']) # 术语标准化 standardized_text = standardize_medical_terms(cleaned_text) # 敏感信息检测 sensitive_info = detect_sensitive_info(standardized_text) # 如果包含敏感信息，进行脱敏处理 if "是" in sensitive_info: # 这里可以添加具体的脱敏逻辑 standardized_text = "[敏感信息已脱敏] " + standardized_text # 实体提取 entities = extract_medical_entities(standardized_text) processed_data.append({ 'id': row['id'], 'original_text': cleaned_text, 'standardized_text': standardized_text, 'sensitive_info': sensitive_info, 'medical_entities': entities, 'source': row['source'] }) except Exception as e: print(f"处理第{index}条数据时出错: {str(e)}") continue # 保存处理结果 result_df = pd.DataFrame(processed_data) result_df.to_csv(output_path, index=False, encoding='utf-8-sig') return result_df # 使用示例 # processed_df = process_medical_data('raw_medical_data.csv', 'cleaned_medical_data.csv')