在公共卫生研究中,成人与儿童健康的关系是评估家庭环境和社会因素对健康影响的重要切入点。本文以 NHIS 2019 数据为例,系统演示了成人–儿童配对样本的权重分析流程。NHIS 数据包含成人样本、儿童样本以及亲子配对权重三类数据,研究者在分析家庭健康状况时必须同时使用,并充分考虑分层、集群以及权重因素,以确保结果具有全国代表性。文章首先介绍了如何从官网获取数据,并在 R 中使用 readr 读取 CSV 文件,通过 dplyr 对成人、儿童及配对权重数据进行清洗、变量重编码、异常值处理和关键指标筛选,同时新增 eligible_familyID 以标记合格家庭,为后续家庭层面合并分析奠定基础。
一、回顾之前内容
之前的文章我们以NHIS 2019数据为例,演示成人–儿童配对样本的权重分析的准备流程。NHIS包含成人样本、儿童样本和亲子配对权重三类数据,研究成人与儿童健康关系时必须综合使用,并考虑分层、集群和权重以保证全国代表性。
首先从官网下载三个CSV文件,在R中利用readr读取,并借助dplyr进行整理,使用survey包为后续复杂抽样分析做准备。读取后通过head、glimpse等检查结构,确保关键变量类型正确。随后对配对权重数据进行精简与标准化,新增eligible_fami