长春网站建设优势吉网传媒好远安网站建设-河源市网站建设公司-Seo优化

长春网站建设优势吉网传媒好,远安网站建设,网站代运营公司,短网址生成设计一、K-means聚类 1、基本概念 1#xff09;聚成多少个簇#xff1a;需要知道K的值 2#xff09;距离的度量#xff1a;一般采用欧式距离 3#xff09;质心#xff1a;各向量的均值 4#xff09;优化目标#xff1a; 2、常见的距离 3、步骤 4、聚类效果评价方式 1…一、K-means聚类1、基本概念1聚成多少个簇需要知道K的值2距离的度量一般采用欧式距离3质心各向量的均值4优化目标2、常见的距离3、步骤4、聚类效果评价方式1轮廓系数a(i)对于第i个元素xi计算xi与其同一个簇内所有其他元素距离的平均值表示簇内的凝聚程度b(i):选取xi外的一个簇计算xi与该簇内所有点距离的平均距离遍历其他所有簇取所有平均值中最小的一个表示簇间的分离度(1轮廓系数范围在[-11]之间该值越大越合理2si接近1则说明样本i聚类合理3si接近-1则说明样本i更应该分类到另外的簇4若si近似为0则说明样本i在两个簇的边界上5、K-means的API参数classsklearn.cluster.KMeans(n_clusters8,init’kmeans’,n_init10,max_iter300,tol0.0001,precompute_distances’auto’,verbose0,random_stateNone,copy_xTrue,n_jobsNone,algorithm’auto’)[source]【参数】n_clusters:类中心的个数,就是要聚成几类。【默认是8个】init参初始化的方法默认为k-means(1)k-means:用一种特殊的方法选定初始质心从而能加速迭代过程的收敛.(2)‘random’:随机从训练数据中选取初始质心。(3)如果传递的是一个ndarray则应该形如 (n_clusters, n_features) 并给出初始质心。n_init:整形缺省值10用不同的质心初始化值运行算法的次数最终解是在inertia意义下选出的最优结果。max_iter:执行一次k-means算法所进行的最大迭代数。Tol:与inertia结合来确定收敛条件。precompute_distances三个可选值‘auto’True 或者 False。预计算距离计算速度更快但占用更多内存。(1)‘auto’如果样本数乘以聚类数大于 12million 的话则不预计算距离。(2)True总是预先计算距离。(3)False永远不预先计算距离。verbose整形默认值0random_state :随机状态copy_x布尔型默认值True当我们precomputing distances时将数据中心化会得到更准确的结果。如果把此参数值设为True则原始数据不会被改变。如果是False则会直接在原始数据上做修改并在函数返回值时将其还原。但是在计算过程中由于有对数据均值的加减运算所以数据返回后原始数据和计算前可能会有细小差别。algorithm:auto,full or elkan.默认为autofull:采用经典的EM算法elkan:通过使用三角不等式从而更有效但不支持稀疏数据auto:数据稀疏选择full模式数据稠密选择elkan模式【属性】cluster_centers_:一个n-clusters*n_features的矩阵表示聚类中心的坐标Labels_:每个点的分类标签。inertia_float形每个点到其簇的质心的距离之和。n_iter_: int迭代次数。6、实际运用通过网盘分享的文件datingTestSet2.txt链接: https://pan.baidu.com/s/1ppjHnaeHVBIydlJ7-4a9cw 提取码: y5quimport pandas as pd import numpy as np from sklearn.cluster import KMeans from sklearn import metrics a pd.read_csv(datingTestSet2.txt, sep\t, headerNone) a.columns [F1, F2, F3, Class] x a[[F1, F2, F3]] from sklearn.metrics import silhouette_score scores[] for i in range(2,15): labelsKMeans(n_clustersi,random_state0,max_iter1000).fit(x).labels_ score silhouette_score(x, labels) scores.append(score) print(score) # 找到最佳k值 best np.argmax(scores)2 # 2因为range从2开始 print(最佳k值:,best) print(最高轮廓系数:, max(scores)) import matplotlib.pyplot as plt from pylab import mpl mpl.rcParams[font.sans-serif][Microsoft YaHei] mpl.rcParams[axes.unicode_minus]False plt.plot(list(range(2,15)), scores) plt.xlabel(聚类数量) plt.ylabel(轮廓系数得分) plt.show() #聚类 km KMeans(n_clusters3).fit(x) a[cluster] km.labels_7、优缺点1优点简单快速适合常规的数据集2缺点1K值难以确定2很难发现任意形状的簇二、DBSCAN1、概念基于密度的带噪声的空间聚类应用算法它是将簇定义为密度相连的点的最大集合能够把具有高密度的区域划分为簇并在噪声的空间数据集中发现任意形状的聚类2、要点1核心对象:A点2E邻域:给定对象半径为E内的区域3直接密度可达:4密度可达:5边界点:B点、C点6离群点:N点3、实现过程1输入数据集2指定半径3指定密度阈值4、DBSCAN的API参数classsklearn.cluster.DBSCAN(eps0.5,min_samples5,metric’euclidean’,algorithm’auto’,leaf_size30,pNone,n_jobsNone)epsDBSCAN算法参数即我们的ϵϵ-邻域的距离阈值和样本距离超过ϵϵ的样本点不在ϵϵ-邻域内。默认值是0.5.一般需要通过在多组值里面选择一个合适的阈值。eps过大则更多的点会落在核心对象的ϵϵ-邻域此时我们的类别数可能会减少本来不应该是一类的样本也会被划为一类。反之则类别数可能会增大本来是一类的样本却被划分开。min_samplesDBSCAN算法参数即样本点要成为核心对象所需要的ϵϵ-邻域的样本数阈值。默认值是5. 一般需要通过在多组值里面选择一个合适的阈值。通常和eps一起调参。在eps一定的情况下min_samples过大则核心对象会过少此时簇内部分本来是一类的样本可能会被标为噪音点类别数也会变多。反之min_samples过小的话则会产生大量的核心对象可能会导致类别数过少。metric最近邻距离度量参数。可以使用的距离度量较多一般来说DBSCAN使用默认的欧式距离即p2的闵可夫斯基距离就可以满足我们的需求。可以使用的距离度量参数有a) 欧式距离 “euclidean”:b) 曼哈顿距离 “manhattan”c) 切比雪夫距离“chebyshev”…还有一些其他不是实数的距离度量一般在DBSCAN算法用不上这里也就不列了。algorithm最近邻搜索算法参数算法一共有三种第一种是蛮力实现第二种是KD树实现第三种是球树实现。对于这个参数一共有4种可选输入‘brute’对应第一种蛮力实现‘kd_tree’对应第二种KD树实现‘ball_tree’对应第三种的球树实现 ‘auto’则会在上面三种算法中做权衡选择一个拟合最好的最优算法。需要注意的是如果输入样本特征是稀疏的时候无论我们选择哪种算法最后scikit-learn都会去用蛮力实现‘brute’。个人的经验一般情况使用默认的 ‘auto’就够了。如果数据量很大或者特征也很多用auto建树时间可能会很长效率不高建议选择KD树实现‘kd_tree’此时如果发现‘kd_tree’速度比较慢或者已经知道样本分布不是很均匀时可以尝试用‘ball_tree’。而如果输入样本是稀疏的无论你选择哪个算法最后实际运行的都是‘brute’。p:最近邻距离度量参数。只用于闵可夫斯基距离和带权重闵可夫斯基距离中p值的选择p1为曼哈顿距离 p2为欧式距离。如果使用默认的欧式距离不需要管这个参数。【属性】Labels_:每个点的分类标签。三、TF-IDF1、文本分析之关键字提取任务给定任意一篇文本然后提取该文本的关键词如何进行关键词提取步骤2、语料库的创建1什么是语料库1语料库中存放的是在语言的实际使用中真实出现过的语言材料2语料库是以电子计算机为载体承载语言知识的基础资源3真实语料需要经过加工分析和处理才能成为有用的资源2如何构建语料库将所需要被分析的文档读入计算机内存利用python构建语料库3、进行中文分词1导入分词库固定词组jieba并没有内置的词组2导入停用词库没有意义的词如的了呀等3使用jieba库分词将原文章完全分词即可4、词云图绘制词云图又叫文字云是对文字数据中出现频率较高的关键词予以视觉上的突出形成“关键的渲染”就类似云一样的彩色图片从而过滤掉大量的文本信息使人一眼就可以领略文本数据的主要表达意思5、TF-IDF分析1TF指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化一般是词频除以文章总次数以防止它偏向长的文件2IDF逆向文档频率。IDF的主要思想是如果包含词条t的文档越少IDF越大则说明词条具有很好的类别区分能力逆文档频率(IDF) log(语料库的文档总数 / 包含该词的文档数)3TF-IDF因此TF-IDF倾向于过滤掉常见的词语保留重要的词语4举例5总结TF-IDF相当于加权6、实际运用task2_1.txt中内容This is the first document This document is the second document And this is the third one Is this the first document This line has several words This is the final documentfrom sklearn.feature_extraction.text import TfidfVectorizer#补充内容TF-IDF的方式计算 import pandas as pd aopen(r.\task2_1.txt, r) corpus a.readlines() vectorizer TfidfVectorizer() #类转为TF-IDF的向量转换对象 tfidf vectorizer.fit_transform(corpus) #传入数据返回包含TF-IDF的向量值 print(tfidf) wordlist vectorizer.get_feature_names() #获取特征名称所有的词 print(wordlist) df pd.DataFrame(tfidf.T.todense(), indexwordlist)#tfidf.T.todense()恢复为稀疏矩阵 print(df) featurelist df.iloc[:,5].to_list() #通过索引号获取第2列的内容并转换为列表 resdict {} #排序以及看输出结果对不对 for i in range(0, len(wordlist)): resdict[wordlist[i]] featurelist[i] resdict sorted(resdict.items(), keylambda x: x[1], reverseTrue) print(resdict[2])运行结果

长春网站建设优势吉网传媒好远安网站建设

网站建设 seo公司网站建设开发

网站设计注册怎么做高端品牌网站建设注意事项

深圳网站建设与网站制作网站赚流量

中国建设银行征信中心网站音乐网站开发需求文档模板

欧美网站与中国网站区别重庆网站推广外包

安徽做网站找谁货运公共平台