Python Victor-DAY 8 标签编码与连续变量处理-育师

知识点复盘：

字典的简单介绍（增删查改）
标签编码（字典的映射）
对独热编码的深入理解----n个不相关变量只有n-1个自由的
连续特征的处理：归一化和标准化----一般选一个即可，谁好谁坏做了才知道，除非有先验知识。

至此，常见的预处理方式都说完了

作业：对心脏病数据集的特征用上述知识完成，一次性用所有的处理方式完成预处理，包括

缺失值的处理
离散特征的编码
连续特征的归一化or标准化
数据可视化（单特征、单特征与标签）

import pandas as pd data = pd.read_csv(r'D:\课程\课程文件1\pythonstudy\pythonx训练营\python-60days-challenge\heart.csv') data.head()

输出

缺失值的处理

data.isnull()

输出

data.head()

输出

离散特征的编码

data.columns

输出

print(data.dtypes)

输出

for discrete_features in data.columns: if data[discrete_features].dtype == 'object': print(discrete_features)

data['age']

data['age'].value_counts()

整合

连续特征的归一化or标准化

数据可视化（单特征、单特征与标签）

# 手动实现归一化 def manual_normalize(data): min_val = data.min() max_val = data.max() normalized_data = (data - min_val) / (max_val - min_val) return normalized_data data['sex'] = manual_normalize(data['sex']) data['sex'].head()

输出

0 1.0 1 1.0 2 0.0 3 1.0 4 0.0 Name: sex, dtype: float64

# 使用sklearn进行归一化处理 from sklearn.preprocessing import StandardScaler, MinMaxScaler data = pd.read_csv(r'D:\课程\课程文件1\pythonstudy\pythonx训练营\python-60days-challenge\heart.csv') min_max_scaler = MinMaxScaler() data['sex'] = min_max_scaler.fit_transform(data[['sex']]) data['sex'].head

输出

<bound method NDFrame.head of 0 1.0 1 1.0 2 0.0 3 1.0 4 0.0 ... 298 0.0 299 1.0 300 1.0 301 1.0 302 0.0 Name: sex, Length: 303, dtype: float64>

# 使用sklearn进行标准化处理 data = pd.read_csv(r'D:\课程\课程文件1\pythonstudy\pythonx训练营\python-60days-challenge\heart.csv') scaler = StandardScaler() data['sex'] = scaler.fit_transform(data[['sex']]) data['sex'].head()

输出

0 0.681005 1 0.681005 2 -1.468418 3 0.681005 4 -1.468418 Name: sex, dtype: float64

数据可视化

单特征

单特征与标签的关系

plt.figure(figsize=(12, 6)) sns.violinplot(x='age', y='chol', data=data, scale='width', inner='quartile')#把年龄（age）当横轴分组，胆固醇（chol）当纵轴连续量，画“小提琴”——左右鼓包表示每个年龄组里 chol 的分布形状，宽度代表样本量。 plt.title('Cholesterol vs. age') plt.xlabel('Age (years)') plt.ylabel('Cholesterol (mg/dL)') plt.tight_layout() plt.show()

输出

import seaborn as sns import matplotlib.pyplot as plt plt.figure(figsize=(8, 5)) # 1. 只画 KDE 轮廓，填不填都可以 sns.kdeplot(data=data, x='chol', hue='target', fill=True, # 填色更直观 bw_adjust=0.7, # 平滑度 common_norm=False,# 各自积分=1，方便比较形状 palette='Set2') # 2. 细节美化 plt.title('Cholesterol distribution by Heart Disease') plt.xlabel('Cholesterol (mg/dL)') plt.ylabel('Density') plt.legend(title='Heart Disease', labels=['No', 'Yes']) plt.tight_layout() plt.show()

输出

@浙大疏锦行

网络安全核心基础百问百答：你的第一本实用安全速查手册

当我们学习网络安全的时候，需要对它的基础知识做一个简单的了解，这样对以后的学习和工作都会有很大的帮助。本篇文章为大家总结了网络安全基础知识入门的内容，快跟着小编来学习吧。计算机网络计算机网络是利用通信线路将不同地理位置、具…

李华

揭秘Open-AutoGLM如何拯救非遗文化：5大核心技术首次公开

第一章：揭秘Open-AutoGLM如何拯救非遗文化在数字化浪潮席卷全球的今天，许多濒临失传的非物质文化遗产正借助前沿AI技术重获新生。Open-AutoGLM作为一款开源的自动化生成语言模型框架，凭借其强大的多模态理解与生成能力，正在成为非…

李华

揭秘Open-AutoGLM底层架构：如何实现高质量文创内容自动生成

第一章：揭秘Open-AutoGLM底层架构：如何实现高质量文创内容自动生成Open-AutoGLM 是基于 GLM 架构演进而来的开源自动内容生成模型，专为文化创意产业设计，具备强大的语义理解与多模态内容生成能力。其核心在于融合了大规模预训练语…

李华

收藏！大模型学习实战指南：从入门到进阶，小白/程序员少走90%弯路

大模型浪潮席卷而来，越来越多的人想跻身这个高薪赛道，但学习路上的迷茫和挫败感，成了很多人的“拦路虎”。我的后台每天都能收到大量类似的求助： “零基础想学家用大模型，不知道从哪开始，怕学不会又怕学错&…

李华

收藏！2025年AI行业风口：应用层人才成企业争抢核心，程序员/小白入门指南

2025年的AI赛道早已告别“技术概念炒作”，全面迈入“价值落地攻坚期”，而当下最值得把握的机遇窗口，毫无疑问聚焦在AI应用层！从互联网大厂到传统实体企业，都在这片蓝海疯狂加码布局，与之相伴的是持续扩大的…

李华

你不知道的Open-AutoGLM黑科技（5个隐藏功能让城市管理效率提升300%）

第一章：Open-AutoGLM 智慧城市协同调度在现代智慧城市建设中，交通、能源与公共安全等多系统间的高效协同成为提升城市运行效率的核心挑战。Open-AutoGLM 作为一种基于大语言模型的自动化决策引擎，能够理解复杂城市语义环境，并生成…

李华