叶 羲目啦术 麟 应用研究 基于多特征选择的聚类方法研究 马元元 (中山职业技术学院信息工程学院,广东中山528404) 摘要:特征选择是数据挖掘和机器学习领域中聚类分析的一种常用分析处理方式,目前已广泛运用于文本资源分类和数据集的聚类中, 在未被标记的资源集处理环境中,让计算机自己学习使用一些特征相关度量的选择方法。总结了一种基于多特征选择算法的聚类方法 (MFSC),在资源集中,对多特征进行聚类特征方法选择、分类,将关系相关性较强的划分为同类簇群,再依次从每个簇群中轮询特征代表性 较强的归为一类集合,最终达到去除弱依赖特征和特征冗余的结果。实验证明MFSC特征集约效果较高、性能较稳定。 关键词:特征选择;多特征;聚类;MFSC 中图分类号:TP301 文献标识码:A 文章编号:1007.9416f2017)05-0139-03 Clustering Research Based on Multiple Feature Selection Ma Yuanyuan (Information Engineering School,Zhongshan Polytechnic,Zhongshan Guangdong 528404) Abstract:feature selection is the clustering an ̄ysis ofdata mining and machine learning in the ifeld ofa common analysis method,has been widdy used in text clasfificadon and clustering ofresource data sets,in the unlabeled set ofresources processing environment,let the computer choose their own learning methods using some characterisitcs related to measure.To explore and summarize a mulitple feature selection algorithm(MFSC)feature selection and clustering method,which use the characterisitc interval intermediate key single feature clustering,clustering method which features the concentration ofresources ni the feature selection classiifcation,divides hte relatiomhip is strong for hte saY ̄1e cluster,then from each cluster in the pollnig feature representative is chssified as a class set.to remove hte weak dependence and feature redundancy results.Experimental results show that the MFSC feature is higllly effective and stable. Key WordS:Feature selection;Multi feature;Clustering;MFSC 1引言 成若干个数据簇,要求有较强的依赖和相关性,而不同的数据簇相 近年来,随着大数据、云计算、人工智能等前沿技术的广泛应 关性尽可能的小,然后对文本进行聚类分析后的分类信息可作为对 用,互联网庞大的信息的处理和使用,成为了广大业内学者研究的 用户行为相似度的分析[2】a 重要课题之一。这类课题研究都产生于标记资源集的数据处理中, 通常对文本数据采用向量空间标记来进行聚类描述。在这一设 对未知或者说未标记的资源集的处理研究则显得相对薄弱。其原因 计模型中,每一单词都作为特征空间中的一维坐标系,而每一文本 是因为:(1)未标记资源集特征选择是基于计算机自我学习和自我提 的数据簇作为一个向量。这种分析方法虽然简单和直接,但是在多 升处理能力的I(2)未标记资源集特征选择是利用上下文(一组带屙陛 维稀疏矩阵文本聚类中,效率和性能却很难让人满意。 的有序序列),进行自我对象认知和激活的过程,要求是自动服务,如 为了解决上述问题,我们通过特征选择来进行分级汇总进行特 同步数据到资源库、实时激活、事物的再处理的过程中充满了许多 征值的降序排序,根据标记和未标记资源集的特征选择进行分类。 不确定性,获取的结果也难以验证和解释。本文对多特征选择聚类 比如,在对文档的聚类中,文档归属于一种类型(type),而这些聚类 算法(Multiple feature selection clustering algorithm)进行研究, 分析后的类型存在于索引(index)中,我们对其中的字4 ̄(fields)进行 以降低特征空间维数、提升聚类的效果[1】。 搜索,步骤如下所示: Relational DB一>Databases一>Tables一>Rows一> 2文本分类的相关技术 ColumnsSearch一>Indices一>Types一>Documents一> 聚类在web文本数据的归类中作为一种手段,利用的是计算机 Fie1ds 的自我分析和聚合。例如两个职员对音乐有兴趣,一个喜欢哲学,一 个喜欢运动。这些数据并没有被预先计算好,它们是实时的从匹配 3特征选择聚类算法研究 查询语句的文档中动态计算生成的。首先将文本中挖掘的数据集分 在未标记的数据集中,数据的特征并不是孤立表现的,而是相 收稿日期:2017—05—16 基金项目:中山市科技计划项目,项目编号:2015B2382。 作者简介:马元元(1982--),女,甘肃庆阳人,硕士研究生,讲师,研究方向:数据挖掘、物联网。 芹甘天发计算 多特订七彝£买 椭 杯记王键 漠I试 数据集 特征序歹IJ类 别空区间 特征簇 群 特征子集 空间 图1多特征选择聚类算法处理流程 表1各特征选择算法在K—Means上分类的结果 Id l 2 3 4 5 6 aVer Raw 94.28±0.1l 40.63±7.65 10o土0.0 80.96±2.52 96.55±0.23 92.28士0.44 84.12±1.83 TS 94.38士0.16 57.5土5.53 99.02±0.0 70.48士1.08 95.59±0.3 92.67士0.54 84.94士1.27 FCBF 94.03士0.04 58.13±2.71 100±0.0 95.32士2.O5 96.60±0.25 91.09土O.O 89.20±0.84 FSFC 94.36士0.17 48.13士3.56 99.02土0.O 70.48士1.08 95.59±0.3 92.08士O.O 83.28土0.85 MFSC 94.26土0.02 53.75±2.6l 99.86土0.0 95.32士1.05 89.09士0.0 91.o9±0.O 87.22土0.63 表2各特征选择算法在Na ive bayes上分类的结果 Id l 2 3 4 Raw 95.40±0.05 49.38士4.64 95.73士0.03 74.68±1.94 TS 96.19±0.06 71.25士1.40 98.52±0.0 72.58±1.89 FCBF 94.45士0.02 61.86士1.40 98.52士O.0 74.84土1.44 FSFC 96。19±0。06 68.13±5.13 98.52土0.0 72.58±1.89 MFSC 94.79-1-0.0l 53.13土1.83 98.33土O.0 75.16土1.09 5 6 7 89.98±0.13 93.66士O.89 83.14士1.28 96.09士O.0 93.07±0.O 87.95±O.56 91.36土0.26 94.06土0.0 85.85士0.52 96.09±0.0 91.09土0.0 87.01±1.18 86.67土0.15 96.04士0.0 84.02±0.51 关联的表现相似特征,这就构成了多特征的集。针对这些在区分类 则可以利使用以上公式计算每+web页面的特征向量空间,对 别时存在的冗余现象,本文提出了基于上下文多特征选择的聚类算 每个特征区间进行聚类汇总了。 3.2多特征选择聚类算" ̄(MFSC) 法。主要思想是根据数据集表现的特征的相似度,对相似属性类的 在聚类的选择特征中,对特征类型的分类是—个反复进行的过 特征进行聚类汇总,然后在每个簇群中选择一个特征作为主键,簇 首先对探测到的未标记的数据集进行相关度计算并形成类别区 群中的其他特征从候选特征集中标记为外键或对依赖性弱的进行 程,剔除,这样保证特征集的相对独立性、降低高冗余度,进而对剩余的 间,基于多特征选择聚类的算法,会在此基础上进行降序特征排序, 特征进行信息筛选后特征归类。 然后通过聚类算法在不同的子空间中检索数据簇,确定标记主键, 3.1特征区问的选择 然后形成特征子集的特征簇群。其处理过程如图1所示。 我们PAweb文本为例,对于DocType ̄型的文本中的每一特征 在实际的应用中,多特征选择聚类算法充分利用文本的多特征 作为一类的特征区间。如文档内容、URI和web的访问日志,对于文 特性,为特征类的聚集确定主键,并进行分离出具有代表性的特征 这样在得到不同类别的类集后,在各个类集上进行特征选择 档内容和URI我们可以用向量区间模型表示,通过对语义的划分表 子集, 示权值。但对于用户访问过的log信息,如果没有定义信息来源类 并利用合并函数得到结果集。设M表示每个特征区间的数据集,别,将得不到任何关于词分类的信息。因此引入了一种从开发到用 厂(n)代表一维的特征向量,钾LI弋表聚类选择的第i个特征区间,CF 代表合并的函数。那么算法程序的伪代码可以表示为: 假设日志信息包含了m个上下文样本记录和n个查询特征,特 for(n iterations of clustering){ for(M feature character){ 征集F可表示为: 户使用之间的关系向量。 F=f厂1.f2,f3,….fn],厂∈R(n)(1≤K≤n).K指的是特征 集,F进行聚类时被划分了K个不同的特征簇。 对于特征选择后的聚类,不确定性是特征评价的指标,它也是 针对计算机信息增减变化的度量指标和依赖程度,可以理解为数据 簇之间共同相似的信息含量。如果用∞表示web页面的上下文本记 录, 表示查询次的访问过的页面,a, 表示特征向量的空间。 qonV(∞)= , qo2…., ,Do clustering in feature char m } for(M feature character) { for feature character in,do feature index using results in all freature character; then 】下 to combined score f(x)=Voting(value0) 欺事虹水 ? 应用研究 并由实验结果可以看出:(1)MFSC算法结果正态分布的稳定性, } (2)MFsC在未标记数据集上的分类用时是高于其他特征方法的, 其中,在程序代码的实现中利用到的算法厂x,可以具体表示为: 其原因在于多特征的选择的分量,类区间内距离分量相比其他更 Voting(value(厂(n)) 小。(3)MFSC在数据集上的分类上,由于特征选择的子集区间分 量较小,准确率相比其他更高和错误率更低[3】。 } f =f ∑M.。vote(f(v)n.n ) 1L v。t。(,( )n,口 ):f【。Va ue‘厂 n,。Y l <s (1) 1、,alue(厂(、 )n.e、 L) St 4结论 乞●i{p I 囊●●●● L墨蓝毫毫鼙 慧 t t t t t■ 秘一lI 舯 聃暑 }¨ 己学习使用多特征相关的选择聚类的方法——MFSC。使用这一 i 2 3 t 本文提出一种在未被标记的资源集处理环境中,让计算机自 公式(1)中,value(厂(n)可以用3.1节中标记资源集的特征选择 算法将有无标记或有无监督的特征选方法成功的运用到了聚类分 聚集函数公式来计算,st是特征选择的阀值,可以通过以往统计的数 析,利用了上下文的多种相似特征进行主成分分析,确立主键和区 据推出设定值。从算法中,我们可以发现基于上下文进行多特征选 间内距离,并对子区间也进行了特征值降序排列,从而达到较为理 择的聚类方法在聚类时是利用主键的方式进行表示,采用分类别的 想的效果。 簇间的不同性选择特征子集。在每一次特征集簇群选择后,聚类都 参考文献 会重新降序排列汇总,得到一组高聚类的特征子集。 [1]樊东辉.基于文本聚类的特征选择算法研究[D].西北师范大学。 3.3实验结果比较 对于特征选择算法的评估,我应考虑到:(1)特征分类所获的结 [2]樊东辉,王治和,陈建华。许虎寅.基于DF算法改进的文本聚类特征 果相同时,子集的区间距离越短,其性能越优・(2)在大数据集测试 选择算法[J].甘肃联合大学学报(自然科学版)。2012(1):51-54. 时,特征分类的越稳定,其算法越好。 [3]徐峻岭。周毓明。陈林.徐宝文.基于互信息的无监督特征选择[J]. 表1和表2分别对比了Raw(特征全集)、TS、FCBF、FSFC、 计算机研究与发展.2012(2):372-382. MFSC等算法,在K-Means和Na Yve bayes分类器的分类结果, 2012. Z—.n 工P^ddr日,●捌:^C^ddr■■曩 口p 口p 土,2.169.20.2/24 土,2.168.0.1/24 0001.葛‘B2.8盂01 00t0.A30A.Ol●Ca D0 ll 自 ^啉 D口确 D叫h 一一 一一 一--OOOI.‘4B2+B置O2 OOO1.‘●l醢.Bloa 0001.“戤.口妁● 0001.掌¨噱.吐O暑 却 玺 ・一o9幢 ・’‘t豫,薯 口蛋 。 ; 。 。 图2交换机为Linksys的Intemet口分配到的地址 ……上援第46贞 经过上述设置,交换机为PC0分配了J@All:192.168.10.2/24, 无线胖AP)等类设备的统称。无线AP是使用无线设备(手机等移动设 为Linksys的Internet口分配了地址192.168.20.2/24lLinksys为 备及笔记本电脑等无线设备)用户进入有线网络的接人 ,主要用于PC1分配了地址l92.168.0.100/24。图2所示给出了交换机为 宽带家庭、大楼内部、校园内部、园区内部以及仓库、工厂等需要无Linksys的Intemet地址。 线监控的地方,典型距离覆盖几十米至上百米,也有可以用于远距 使用ping命令检验无线终端设备和交换机之间的连通性,以 离传送,目前最远的可以达到30KM左右,主要技术为1EEE802.11系 及两边无线终端设备之间的连通性,结果都能连通。实验结果表明, 列。大多数无线AP还带有接人点客户端模式(AP client),可以和其 通过AP和VLAN技术可以实现无线网络和有线网络的互相连接。 它AP进行无线连接,延展网络的覆盖范围。 本研究拓扑中包含了有瘦AP和胖AP(Linksys)两种设备。 嬉蕊 . .通过上述的研究表明,无论是瘦AP,还是胖AP,都可以通过 3本研究拓扑圈的设计和I P地址段的规划 VLAN ̄ ̄.将无线终端设备连接到有线网络中,从而进一步实现无 ,本研究采用如图1的拓扑图设计。在如下综合网络中,共有1个 线终端设备像有线终端设备一样,利用网络中的所有资源,并通过 三层交换机,1台瘦AP,I台Linksys。链路分配的地址段分别为: 有线网络实现广域网络的连接。本研究为局域网工程项目中,实现 vlan 10的地址网段为192.168.10.0/24、vlan 20的地址网段为 无线和有线的有效互连提供了新的思路。 192.168.20.0/24,瘦AP-V作在二层,只需要配置SSID为AP ̄I] 参考文献 可,linksys设备使用Intemet口和交换机相连接,连接方式为au一 [1]唐继勇tomatic configuration—DHCP,管理地址使用默认地址192.168. DHCP自动分配,PCl的地址由Hnksys的DHCP分配,地址网段为 192.168.0.0/24。 童均.任月辉.无线网络组件项目教程[M].中国水利水电 山 “。n1 ,。0・1/24,且将DHcP设置成Enabled状态。Pc0的地址由交换机 [2]杨军李瑛,杨章玉.无线局域网组建实战[M].北京:电子工业出版 。nn f_u・(.uuu・ 交换机上关键配置语句如表l所示。