python基础（逻辑回归例题）-育师

一、参数选择

在逻辑回归建模中，“过拟合”是绕不开的坑——当模型在训练数据上表现完美，却在新数据上一塌糊涂时，大概率是模型复杂度超出了数据所能支撑的范围。而惩罚因子（也叫正则化参数），正是我们解决过拟合、平衡模型拟合度与泛化能力的核心工具。

1.通过LogisticRegression(C=i,penalty='l2',solver='lbfgs',max_iter=1000)函数C参数的选择最优惩罚因子。通过K折交叉验证cross_val_score(lr,x_train_w,y_train_w,cv=8,scoring='recall')函数来实现。

scores=[] #不同参数下的验证集评分 c_range=[0.01,0.1,1,10,100] for i in c_range: lr=LogisticRegression(C=i,penalty='l2',solver='lbfgs',max_iter=1000) score=cross_val_score(lr,x_train_w,y_train_w,cv=8,scoring='recall') score_m=sum(score)/len(score) scores.append(score_m) print(score_m) best_c=c_range[np.argmax(scores)] print("最优惩罚因子",best_c) lr=LogisticRegression(C=best_c,penalty='l2',solver='lbfgs',max_iter=1000) lr.fit(x_train_w,y_train_w) from sklearn import metrics train_predict=lr.predict(x_train_w) print(metrics.classification_report(y_train_w,train_predict))#获得混淆矩阵的准确值，召回值。 cm_plot(y_train_w,train_predict).show() test_predict=lr.predict(x_test_w) print(metrics.classification_report(y_test_w,test_predict,digits=6))#获得混淆矩阵的准确值，召回值。 cm_plot(y_test_w,test_predict).show()

二、下采样

下采样的核心是“削减多数类样本”，将不同类别的数量平衡一下，减少多的类别的数量

在案例中使用代码：

x_train_w=train_data[train_data['Class']==1]
y_train_w=train_data[train_data['Class']==0]
y_train_w=y_train_w.sample(len(x_train_w))

使用sample函数从y_train_w中抽取x_train_w的数量。

data=pd.read_csv("creditcard.csv") scaler=StandardScaler() data['Amount']=scaler.fit_transform(data[['Amount']]) data=data.drop(['Time'],axis=1)#axis=1，表示删除列 x=data.drop('Class',axis=1) y=data.Class x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.2,random_state=0) train_data=x_train train_data['Class']=y_train x_train_w=train_data[train_data['Class']==1] y_train_w=train_data[train_data['Class']==0] y_train_w=y_train_w.sample(len(x_train_w)) data_c=pd.concat([x_train_w,y_train_w]) x_train_w_1=data_c.drop('Class',axis=1) y_train_w_1=data_c.Class scores=[] c_range=[0.01,0.1,1,10,100] for i in c_range: lr=LogisticRegression(C=i,penalty='l2',solver='lbfgs',max_iter=1000) score=cross_val_score(lr,x_train_w_1,y_train_w_1,cv=10,scoring='recall') score_m=sum(score)/len(score) scores.append(score_m) print(score_m) best_c=c_range[np.argmax(scores)] print("最优因子：",best_c) lr=LogisticRegression(C=best_c,penalty='l2',solver='lbfgs',max_iter=1000) lr.fit(x_train_w_1,y_train_w_1)

三、过采样

上采样的核心是“扩充少数类样本”

我们可以使用SMOTE（合成少数类过采样技术）——在少数类样本的特征空间中，找到每个样本的k个近邻，通过插值生成新的少数类样本（如样本A和样本B的近邻，新样本=A+rand(0,1)*(B-A)）

from imblearn.over_sampling import SMOTE oversampler=SMOTE(random_state=100)#保证数据拟合效果，随机种子 os_x_train,os_y_train=oversampler.fit_resample(x_train,y_train)#人工拟合数据

构造函数返回对象时的陷阱：为什么 `return {}` 会覆盖 new 操作符的默认行为

各位同学，大家好。今天，我们将深入探讨一个在JavaScript中，尤其是在使用 new 操作符和构造函数时，非常容易被忽视却又极其关键的陷阱：当构造函数中显式地 return {} 或其他对象时，它会如何彻底颠覆 new 操作…

李华

宏任务与微任务的边界：为什么在不同浏览器环境下 Promise 的执行时序可能不一致

各位同仁，各位对JavaScript异步机制充满好奇的开发者们，大家好。今天，我们将深入探讨一个在前端开发领域既基础又充满微妙之处的话题：JavaScript的宏任务（Macro-tasks）与微任务（Micro-tasks&…

李华

智能工牌如何帮房企智能盘客，提升销售转化？

在房地产销售这个高度依赖线下沟通、以“人”为核心的传统行业，有一个长期存在却又被默默接受的效率黑洞：客户走出售楼处大门的那一刻，销售与客户之间最真实、最丰富的沟通细节，往往也随之消散在空气中。“王先生大概对学区有点兴…

李华

LP3713CH_5W/SOP7隔离适配器和充电器自供电PSR控制芯片典型应用电路

LP3713CH 是芯茂微推出的隔离型自供电原边反馈（PSR）控制芯片，集成 BJT，适用于 5W 以下隔离电源方案，外围极简、成本低、保护完善，核心应用聚焦适配器 / 充电器、LED 驱动及电源升级换代等场景。核心应用领域…

李华

[吾爱大神原创工具] Python脚本打包为“EXE”工具(史上最高颜值)

[吾爱大神原创工具] Python脚本打包为“EXE”工具(史上最高颜值) 链接：https://pan.xunlei.com/s/VOgWvSnSenIevIajVK14g-nmA1?pwd5r6e# 很多朋友打包出来的文件超级大，我就写了一个，这个也不算是最好的，最好的是用Nuitka打包&…

李华