C++ STL 之随机数生成详解-育师

C++ STL 之随机数生成详解

为什么 C 的`rand()`不该用

C 标准库的rand()有三个硬伤：

周期极短：绝大多数实现周期仅 2³¹− 1（约 21 亿），在大量采样时必然重复。
低位不随机：rand() % n依赖低 12 位，实现多为 LCG（线性同余），低位周期比高位短得多。例如RAND_MAX为 32767 时，rand() % 2始终输出 0、1、0、1……
无分布抽象：rand() % n会产生偏差（除非 n 整除 RAND_MAX），更不存在正态、伯努利等分布。

C++11 的<random>用**引擎（Engine）+ 分布（Distribution）**双层架构彻底解决了这些问题。

双层架构

引擎负责产生原始随机比特流，分布将比特流映射为特定分布的数值。上层只关心分布，下层只关心随机性——职责分离。

引擎选型

`std::mt19937`——梅森旋转算法

最常用、最推荐。周期 2¹⁹⁹³⁷− 1（约 10⁶⁰⁰⁰），状态大小 2.5 KB。通过了绝大多数统计随机性测试（Diehard、BigCrush）。

#include<random>#include<iostream>intmain(){std::mt19937eng(42);// 固定种子，可复现std::cout<<eng()<<"\n";// 直接取原始 uint32_treturn0;}

mt19937_64是 64 位版本，周期相同，输出uint64_t。

`std::ranlux48`——RANLUX 算法

源自物理学家 Lüscher 的提议，通过丢弃部分输出改善相关性。周期约 2⁵⁷⁶，状态小（约 300 字节），适合对统计质量要求极高、对速度不敏感的场合。

std::ranlux48eng(42);

`std::knuth_b`——Knuth 洗牌表

基于 Knuth《The Art of Computer Programming》中的算法。包含一个 256 个元素的洗牌表，周期约 2³¹。适合玩具场景，生产代码不建议使用。

引擎适配器

discard_block_engine：丢弃部分输出提升质量（ranlux 基于此）
independent_bits_engine：改变输出位宽
shuffle_order_engine：用洗牌表缓存输出（knuth_b 基于此）

分布详解

`uniform_int_distribution`——均匀分布整数

rand() % n的正确替代方案。零偏差，闭区间 [a, b]。

std::mt19937eng(std::random_device{}());std::uniform_int_distribution<int>dist(1,6);// 骰子for(inti=0;i<10;++i)std::cout<<dist(eng)<<" ";// 1~6 均匀分布

`normal_distribution`——正态分布（Box-Muller 变换）

底层使用 Box-Muller 变换：将两个独立的 [0,1) 均匀分布映射为两个独立的标准正态分布。

z0 = sqrt(-2 * ln u1) * cos(2π * u2) z1 = sqrt(-2 * ln u1) * sin(2π * u2)

std::mt19937eng(std::random_device{}());std::normal_distribution<double>dist(170.0,5.0);// 均值 170，标准差 5for(inti=0;i<5;++i)std::cout<<dist(eng)<<"\n";// 模拟身高，大部分在 160~180

C++11 起标准要求此实现，但具体算法由库决定。VS 和 libstdc++ 均采用 Box-Muller。

`bernoulli_distribution`——伯努利分布

以概率 p 返回true，以概率 1−p 返回false。适合抽奖、A/B 测试等二值随机实验。

std::mt19937eng(std::random_device{}());std::bernoulli_distributiondist(0.7);// 70% trueintcount=0;for(inti=0;i<10000;++i)if(dist(eng))++count;std::cout<<"true 比例: "<<count/10000.0<<"\n";// 接近 0.7

`std::seed_seq`——真种子初始化

引擎默认种子或固定种子会导致同一进程内两次运行结果相同。用std::random_device（真随机数生成器，通常基于硬件熵源）初始化种子序列：

#include<random>intmain(){std::random_device rd;std::seed_seq seed{rd(),rd(),rd(),rd(),rd(),rd(),rd(),rd()};std::mt19937eng(seed);// 用 8 个真随机数扩展填充 2.5 KB 状态std::uniform_int_distribution<int>dist(0,100);for(inti=0;i<5;++i)std::cout<<dist(eng)<<"\n";return0;}

seed_seq内部按梅森旋转算法的参数做了混洗（shuffle），保证即使种子之间有简单模式，状态初始化也是高质量的。注意std::random_device在 MinGW 下可能退化为伪随机，此时可考虑用std::chrono::system_clock::now().time_since_epoch().count()参与种子。

面试题集

Q1：rand() % n为什么不均匀？

A：当n不能整除RAND_MAX + 1时，剩余部分(RAND_MAX + 1) % n个数映射到前几个桶，导致低值偏大。正确做法为标准库的uniform_int_distribution内部做拒绝采样。

Q2：mt19937 的名字含义是什么？

A：Mersenne Twister（梅森旋转），19937来自其周期 2¹⁹⁹³⁷− 1，这是一个梅森素数。

Q3：引擎和分布为什么要分离？

A：单一职责。引擎只负责产生高质量随机比特流；分布只负责将比特流映射到目标数学分布。两者可自由组合：同一种分布可用不同引擎，同一个引擎可喂给不同分布。

Q4：std::random_device是否一定返回真随机数？

A：不一定。实现依赖于平台熵源。Windows 上用RtlGenRandom，Linux 上读/dev/urandom，均是真随机。但 MinGW 或某些嵌入式环境可能退化为伪随机生成器。

Q5：discard_block_engine是怎么工作的？

A：引擎每生成 P 个随机数，只保留其中的 R 个，丢弃剩下的 P − R 个。通过丢弃输出打破 LCG 或 Mersenne Twister 的短周期结构相关性。ranlux48就是 P = 389、R = 192 的特化。

Q6：Box-Muller 变换为什么一次生成两个正态随机数？

A：因 Box-Muller 的数学构造（基于两个独立均匀分布做极坐标映射）天然产生两个独立的标准正态样本。实际实现通常缓存第二个，下次调用时直接返回。

Q7：线程安全吗？

A：引擎和分布对象都不是线程安全的。多线程场景下每个线程应有独立引擎副本，或加互斥锁。C++11 未提供线程安全的随机设施。

Q8：如何生成 [0, 1) 之间的浮点数？

std::mt19937eng(std::random_device{}());std::uniform_real_distribution<double>dist(0.0,1.0);doublex=dist(eng);// [0, 1)

注意是半开区间[0, 1)。

总结

维度	`rand()`	`<random>`
周期	2³¹	2¹⁹⁹³⁷
分布	无，需手搓	uniform / normal / bernoulli 等
偏差	`% n`产生	拒绝采样保证无偏
扩展性	不可扩展	引擎 + 分布自由组合
线程安全	全局状态	对象级，线程各自持有

接手新项目先删rand()，换<random>——不是你一个人在受益，是每个 downstream 调用者都被保护了。

C++ STL 之随机数生成详解