layer normalization
常用于长序列文本处理。
https://www.bilibili.com/video/BV1jdWUzkEWc?spm_id_from=333.788.videopod.sections&vd_source=3ca0ef7e7d00a2f1b8033084a87a3a84
在样本内部做归一化,假设一个batch内有五句话(五个样本),对于第一句话,I like to eat apples有五个单词,每个单词的向量由五个维度表示,那么对每个单词的五个维度的特征值计算一个均值和方差,从而实现层归一化。
例题:
https://www.bilibili.com/video/BV1L2421N7jQ/?spm_id_from=333.337.search-card.all.click&vd_source=3ca0ef7e7d00a2f1b8033084a87a3a84
解:shape(batch,序列长度,特征维度)===》(一个batch有几个句子,一个句子有几个单词,每个单词的特征由几个维度表示),也就是有几个单词那么就要计算几个均值和方差。
batch normalization
多应用于图像处理。
https://www.bilibili.com/video/BV1qdWUzkEad?spm_id_from=333.788.videopod.sections&vd_source=3ca0ef7e7d00a2f1b8033084a87a3a84
在一个batch中的多个样本做归一化,本质上就是对一个batch中多个图片的第i层通道一起做归一化计算,一层通道计算一次均值和方差。
例题:
https://www.bilibili.com/video/BV1L2421N7jQ/?spm_id_from=333.337.search-card.all.click&vd_source=3ca0ef7e7d00a2f1b8033084a87a3a84
解:shape(batch,通道数,高度,宽度),每个样本对应的通道一起做归一化,那么也就是有多少层就要计算多少个均值和方差。