关键词排名技巧seo网站源码

张小明 2025/12/31 22:19:31
关键词排名技巧,seo网站源码,如何做网站架构,邢台微商城制作设计文章目录一、数据准备与标准化1. 下采样技术2. SMOTE过采样技术3. 模型训练与评估超参数调优混淆矩阵可视化函数最终模型训练与评估二、技术对比与选择建议一、数据准备与标准化 首先#xff0c;我们需要加载并预处理数据。以下是完整的数据准备代码#xff1a; import num…文章目录一、数据准备与标准化1. 下采样技术2. SMOTE过采样技术3. 模型训练与评估超参数调优混淆矩阵可视化函数最终模型训练与评估二、技术对比与选择建议一、数据准备与标准化首先我们需要加载并预处理数据。以下是完整的数据准备代码importnumpyasnpfromnumpy.maimportnegativefromsklearn.model_selectionimporttrain_test_split,cross_val_scorefromsklearn.preprocessingimportStandardScalerimportpandasaspdimportmatplotlib.pyplotaspltfrompylabimportmplfromsklearn.linear_modelimportLogisticRegressionfromsklearnimportmetricsfromimblearn.over_samplingimportSMOTEimporttime# 读取数据并标准化datapd.read_csv(rcreditcard.csv)scalerStandardScaler()data[Amount]scaler.fit_transform(data[[Amount]])datadata.drop([Time],axis1)# 设置中文字体mpl.rcParams[font.sans-serif][Microsoft YaHei]mpl.rcParams[axes.unicode_minus]False# 可视化正负样本分布labels_countpd.value_counts(data[Class])print(labels_count)plt.title(正负例样本数)plt.xlabel(类别)plt.ylabel(频数)labels_count.plot(kindbar)plt.show()这段代码首先加载信用卡交易数据对交易金额进行标准化处理并移除时间列。通过可视化我们可以清楚地看到正负样本正常交易与欺诈交易的情况。1. 下采样技术下采样是通过减少多数类样本来平衡数据集的方法。在信用卡欺诈检测中正常交易样本多数类远多于欺诈交易样本少数类。下采样随机选择与少数类数量相同的多数类样本从而创建平衡的训练集。# 创建训练数据副本data_traindata.copy()# 分离正负样本positive_egdata_train[data_train[Class]0]negative_egdata_train[data_train[Class]1]# 下采样从多数类中随机抽取与少数类相同数量的样本positive_egpositive_eg.sample(len(negative_eg))# 合并平衡后的数据集data_cpd.concat([positive_eg,negative_eg])# 准备特征和标签column_names[V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,V11,V12,V13,V14,V15,V16,V17,V18,V19,V20,V21,V22,V23,V24,V25,V26,V27,V28,Amount]x_wholedata_c[column_names]y_wholedata_c[[Class]]# 划分训练集和测试集x_train_w,x_test_w,y_train_w,y_test_wtrain_test_split(x_whole,y_whole,train_size0.3,random_state1000)# 使用逻辑回归模型lrLogisticRegression(C0.01)lr.fit(x_train_w,y_train_w)# 预测和评估test_predictedlr.predict(x_test_w)resultlr.score(x_test_w,y_test_w)print(metrics.classification_report(y_test_w,test_predicted))下采样的优点是简单易实现计算效率高但缺点是会丢失大量多数类样本的信息可能降低模型性能。2. SMOTE过采样技术SMOTESynthetic Minority Over-sampling Technique是一种更先进的过采样技术它通过生成合成样本来增加少数类样本数量而不是简单复制现有样本。# 使用完整不平衡数据集x_wholedata[column_names]y_wholedata[[Class]]# 划分训练集和测试集x_train,x_test,y_train,y_testtrain_test_split(x_whole,y_whole,train_size0.2,random_state1000)# 应用SMOTE过采样oversamplerSMOTE(random_state0)os_x_train,os_y_trainoversampler.fit_resample(x_train,y_train)SMOTE的工作原理是在少数类样本之间进行插值生成新的合成样本。具体来说对于每个少数类样本SMOTE会找到该样本的k个最近邻少数类样本随机选择其中一个邻居在原始样本和邻居之间的连线上随机选择一个点作为新样本3. 模型训练与评估超参数调优使用交叉验证来寻找最优的正则化参数Cscores[]c_param_range[0.01,0.1,1,10,100]z1foriinc_param_range:start_timetime.time()lrLogisticRegression(Ci,penaltyl2,solverlbfgs,max_iter1000)scorecross_val_score(lr,os_x_train,os_y_train,cv8,scoringrecall)score_meansum(score)/len(score)scores.append(score_mean)end_timetime.time()print(第{}次....format(z))print(time spend:{:.2f}.format(end_time-start_time))print(recall:{}.format(score_mean))z1best_cc_param_range[np.argmax(scores)]print(f........最优惩罚因子为:{best_c}........)混淆矩阵可视化函数defcm_plot(y,yp):fromsklearn.metricsimportconfusion_matriximportmatplotlib.pyplotasplt cmconfusion_matrix(y,yp)plt.matshow(cm,cmapplt.cm.Blues)plt.colorbar()forxinrange(len(cm)):foryinrange(len(cm)):plt.annotate(cm[x,y],xy(y,x),horizontalalignmentcenter,verticalalignmentcenter)plt.ylabel(True label)plt.xlabel(Predicted label)returnplt最终模型训练与评估# 使用最优参数训练模型lrLogisticRegression(Cbest_c,penaltyl2,max_iter1000)lr.fit(os_x_train,os_y_train)# 训练集预测和评估train_predictedlr.predict(os_x_train)print(metrics.classification_report(os_y_train,train_predicted,digits6))cm_plot(os_y_train,train_predicted).show()# 测试集预测和评估test_predictedlr.predict(x_test)print(metrics.classification_report(y_test,test_predicted,digits6))cm_plot(y_test,test_predicted).show()二、技术对比与选择建议下采样优点计算效率高适用于大规模数据集缺点丢失大量多数类信息可能降低模型泛化能力适用场景计算资源有限多数类样本冗余度高SMOTE过采样优点保留所有样本信息生成多样化的合成样本缺点可能生成不现实的样本计算成本较高适用场景少数类样本非常稀少需要保留所有原始信息在实际应用中建议根据具体问题和数据特性选择合适的采样技术。同时通过合理的数据预处理和采样技术我们可以显著提高模型在不平衡数据集上的性能特别是在召回率这一关键指标上。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

网站建设 找客户蒙特网站建设公司

Obsidian主题美化终极指南:AnuPpuccin打造高颜值笔记界面 【免费下载链接】AnuPpuccin Personal theme for Obsidian 项目地址: https://gitcode.com/gh_mirrors/an/AnuPpuccin 想要让Obsidian笔记软件既美观又实用吗?AnuPpuccin主题就是你的完美…

张小明 2025/12/28 5:37:13 网站建设

成都高端网站建设网站网页优化

EmotiVoice语音合成的情感真实性用户调研报告 在虚拟助手越来越频繁地进入我们日常生活的今天,一个核心问题逐渐浮现:为什么大多数AI语音听起来依然“不像人”?不是因为发音不准,也不是语调生硬——这些技术难题早已被现代TTS系统…

张小明 2025/12/29 4:42:02 网站建设

顺义深圳网站建设公司做网站域名后缀选择

文章介绍了本地部署大模型的四大必要性:数据隐私安全、摆脱网络依赖、降低长期成本、个性化定制。推荐了两款工具:DS本地部署大师,提供图形化界面和内置模型,一键安装使用;聪明灵犀,支持硬件监控、参数调优…

张小明 2025/12/29 4:42:04 网站建设

手机在线网站建设学生网站建设的总结与评价

AutoCAD字体管理终极方案:彻底解决字体缺失的技术革命 【免费下载链接】FontCenter AutoCAD自动管理字体插件 项目地址: https://gitcode.com/gh_mirrors/fo/FontCenter 在工程设计领域,AutoCAD字体管理一直是困扰设计师的技术难题。当您打开一份…

张小明 2025/12/29 4:42:02 网站建设

网站服务器最好的缪斯设计网站

产品型号:VKD104CR-3H产品品牌:永嘉微电/VINKA封装形式:SOP8永嘉原厂,工程服务,技术支持!概 述VKD104CR-3H是3通道触摸检测芯片,功耗低、工作电压范围宽以及稳定的触摸检测效果可以广泛的满足不…

张小明 2025/12/29 4:42:04 网站建设

卢松松的网站wordpress个性登录插件

计算机毕业设计springboot基于Java的教室管理系统的设计与实现ou0o2904 (配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。高校扩招与跨学科课程并行推进,教室资源在时间…

张小明 2025/12/29 4:42:03 网站建设