Stata 文本清洗：Mata + moss 实现多值提取与去重-育师

温馨提示：若页面不能正常显示数学公式和代码，请阅读原文获得更好的阅读体验。

作者：连小白 (连享会)
邮箱：lianxhcn@163.com

Title: Stata 文本清洗：Mata + moss 实现多值提取与去重
Keywords: unique, levelsof, 正则表达式

本文介绍如何在 Stata 中处理包含特殊字符或编码的文本数据，重点展示如何从字符串中批量提取特定模式（如 HTML 编码、电话区号等），并识别其唯一值。文章通过由浅入深的实例，详细讲解moss命令与 Mata 函数的配合使用，帮助读者掌握一套可迁移的文本清洗流程。

1. 引言：为什么需要提取字符串中的唯一值？

数据处理中的常见问题

在实证分析中，我们经常遇到"脏数据"问题。以文献数据库为例，作者姓名、机构名称等字段常包含 HTML 编码（如á表示á，ñ表示ñ），这些编码会带来两个直接后果：

匹配失败：同一个作者因编码差异无法正确合并。例如，Sánchez和Sánchez被视为两个不同的作者。
统计偏差：在计算作者发文量、合作网络时，出现大量"伪重复"观测，导致统计结果失真。

类似的问题还出现在：

网页抓取的数据中混杂 HTML 标签
电话号码、邮箱等字段需要提取特定部分（如区号、域名）
PDF 提取的文本包含参考文献编号[1]、[2]等

本文的解决思路

本文提供一套可复用的处理流程，核心思路分三步：

识别模式：用正则表达式定义需要提取的内容（如&xxxx;形式的 HTML 编码）
批量提取：用moss命令从每行字符串中提取所有匹配项
汇总去重：用 Mata 函数将提取结果转为向量并去重，得到唯一值列表

掌握这套流程后，读者可以轻松迁移到自己的数据清洗任务中。

基础知识

本文涉及的命令和技能：

Stata 基础：变量生成（gen）、字符串函数（word()、substr()等）
正则表达式：模式匹配的基本语法
- 梁淑珍, 2022, Stata：正则表达式教程.
- 游万海, 2020, Stata: 正则表达式和文本分析.
moss 命令：需要安装，用于批量提取字符串中的匹配项
Mata：Stata 的矩阵语言，用于数据去重和向量操作
- 严子凯, 连玉君, 2021, Stata-Mata 系列 (二)：Mata 与 Stata 的交互.
- 王宇桐, 2020, Stata - Mata 系列 (一)：Mata 入门.

如果尚未安装moss，请先运行：

ssc install moss, replace

2. 一个简单的例子：提取字符变量中的唯一值

假设我们有一个汽车数据集，其中make变量包含"品牌+型号"（如Ford Mustang、Toyota Corolla），现在需要提取所有出现过的品牌名称。

2.1 Stata 常规做法：levelsof

常规做法是用levelsof命令：

. sysuse "auto.dta", clear . gen brand = word(make, 1) // 提取第一个单词作为品牌 . levelsof brand, local(brands) . ret list . dis `"`r(levels)'"' `"AMC"' `"Audi"' `"BMW"' `"Buick"' `"Cad."' `"Chev."' `"Datsun"' `"Dodge"' > `"Fiat"' `"Ford"' `"Honda"' `"Linc."' `"Mazda"' `"Merc."' `"Olds"' > `"Peugeot"' `"Plym."' `"Pont."' `"Renault"' `"Subaru"' `"Toyota"' `"VW"' `"Volvo"'

但使用levelsof有两个局限：

结果存储在暂元中，不便于后续处理（如导出为表格）
无法处理复杂情况（如一行有多个值需要提取）

2.2 用 Mata 实现去重：uniqrows()

下面展示 Mata 的做法。虽然对这个简单例子来说有些"大材小用"，但它为后续复杂情况打下基础。

代码演示：

*-------------------------------------------- * 示例1：用Mata获取品牌唯一值 *-------------------------------------------- sysuse "auto.dta", clear * 步骤1：生成品牌变量 gen str20 brand = word(make, 1) * 步骤2：将Stata变量传入Mata putmata brand_m = brand, replace // 说明：putmata命令将Stata的brand变量复制到Mata的brand_m矩阵中 // replace选项表示如果brand_m已存在则覆盖 * 步骤3：在Mata中去重 mata: brand_unique = uniqrows(brand_m) // uniqrows()函数：对矩阵的行去重，返回唯一值 brand_unique // 显示结果 end * 步骤4（可选）：将结果导回Stata clear getmata brand = brand_unique, replace // getmata命令将Mata矩阵转为Stata变量 list, clean

代码解读：