实验7-3:可视化探索
4.1 分析框架
由于数据特点为内容同质化、平台固定、标题是主要差异来源,因此分析聚焦于5个维度:
核心指标:整体表现如何?
排名分析:谁做得好?什么内容做得好?
标题影响:标题关键词如何影响数据?
趋势分析:数据随时间如何变化?
平台对比:B站与CSDN表现差异?
4.2 仪表盘布局
采用“先总后分、左右对照”的布局:
顶部指标卡(两行):全平台概况 + B站/CSDN分平台指标
左右两栏:左栏B站分析,右栏CSDN分析
每栏内部按“排名 → 标题分析 → 趋势”排列
4.3 实验步骤(关键图表制作)
步骤1-2:连接数据源并构建数据集
使用summary_all_platforms、content_analysis、title_feature_analysis三张表构建3个数据集。
步骤3:制作工作表
(1)核心指标卡
指标卡 数据源 配置要点
全平台作品数 全平台概况 求和所有平台content_count
分发平台数 全平台概况 平台去重计数
全平台总浏览数 全平台概况 求和total_views
全平台总互动数 全平台概况 求和总互动(需计算字段)
B站作品数 全平台概况 平台=B站 的计数
CSDN作品数 全平台概况 平台=CSDN 的计数
B站总播放量 全平台概况 平台=B站 的求和views
CSDN总阅读量 全平台概况 平台=CSDN 的求和views
(2)排名图表
B站/CSDN学生平均播放量排名TOP10:维度=作者名称,指标=平均值(浏览数量)
B站/CSDN作品播放量排名TOP10:维度=作品标题,指标=浏览数量
(3)标题影响分析
提升倍率条形图:分别计算含某关键词的平均播放量 ÷ 整体平均播放量
标题特征对比柱状图:含关键词vs不含关键词的平均互动对比(含整体平均线)
(4)趋势分析
B站每日播放量趋势折线图:维度=日期,指标=求和(浏览数量)
CSDN每日阅读量趋势折线图:同上
五、核心知识点总结
知识点 说明
多条件过滤 使用AND/OR组合实现“平台+有效记录”双重过滤
缺失值处理 统一填充默认值(如“未知”),避免计算异常
宽表设计 一次清洗、多次使用,支撑后续全部分析
JavaScript代码组件 用于文本关键词自动标注,实现特征工程
插入/更新 vs 表输出 按主键更新,避免重复数据
分支处理 + 常量标识 多分支聚合后通过常量标签区分不同分组
指标卡设计 核心KPI突出展示,让读者几秒内建立整体认知
排名+标题+趋势组合 从“谁做得好”到“为什么好”再到“规律如何”的完整分析链
提升倍率计算 量化标题关键词的实际影响(含该词平均 ÷ 整体平均)