第33卷第3期 文章编号:1006-9348(2016)03-0323—04 计算机仿真 2016年3月 网络舆情倾向性预测模型仿真研究 连淑娟。薛玉 (北京外国语大学信息技术中心,北京100089) 摘要:在对网络舆情倾向性预测建模过程中,由于网络舆情倾向性话题评论频繁,数目众多,使得网络舆情倾向性受到特征 词语出现频率的影响产生无规律性。传统的网络舆情倾向性预测方法,主要是以特征词语出现频率为前提来建模,忽略了 少数词语会对舆情倾向性产生翻转性影响因素,导致网络舆情倾向性预测分析准确性差的问题。提出文本网络舆情倾向性 预测模型,将中文自动构词算法的SVM文本倾向性分类方法词库和信息瓶颈的特征提取方法相结合,自动化的动态构建专 用词库,引入信息瓶颈概念,根据文章关键词的性质进行分类,在结合概念抽取的方法,将词聚类结果映射到知网义原,并 作为分类特征完成网络舆情倾向性的预测。仿真结果表明,上述方法能够有效提高网络舆情倾向性的预测准确度。 关键词:自动构词算法;支持向量机文本;信息瓶颈;特征提取;关键词聚类;概念抽取 中图分类号:TP 133 文献标识码:B Simulation Research of Network Public Opinion Orientation Prediction Model LIAN Shu—juan.XUE YU (Information Technology Center,Beijing Foreign Studies University,Beijing 100089,China) ABSTRACT:Due to its ̄equent and numerous,the network public opinion orientation is affected by the ̄equency characteristics of words with no regularity.A prediction model for network public opinion orientation is put forward based on the text,the classiifed word library of SVM text orientation of Chinese automatic word formation algorithm is combined with the information bottleneck feature extraction method,and the special word library is built dynamically and automatically.A concept of ifornmation bottleneck is introduced,and it is classiifed depending on the nature of the keywords.Combined with the concept extraction,the word clustering result is mapped to the hownet original right— eousness,and is taken as clssiaifcation characteristics to complete the prediction of network public opinion orienta— tion.The simulation results show that the method can effectively improve the prediction accuracy of network public O— pinion orientation. KEYWORDS:Automatic formation algorithm;Support vector machine(SVM)text;Ifonmatrion bottleneck;Feature extraction;Key words clustering;Concept extraction l 引言 互联网是信息传播的途径和工具,网络舆情的倾向性, 对社会产生着正负两方面影响。某些网络舆论信息,例如对 新现的某个病例的夸大性评论,容易引起社会民众不必要的 恐慌,危害社会安全稳定 J。因此,对网络舆情进行准确预 测,对社会热点话题的方向性做出及时准确的判断,对于网 本倾向性分类方法_4 等,对于网络舆情的预测都是根据文章 的分类来完成的,而文章的分类标准主要是由阈值确定,阈 值的准确与否至关重要,其准确程度在很大程度上影响了对 网络舆情倾向性的分析 J。文献[6]中提到基于相关性的分 析方法,能够对文章进行准确的分类,但由于网络语言的自 然性特点,不能满足其语言处理要求;文献[7]中基于语义学 络突发事件的应对能力的提高是很有必要的。 网络舆情的预测方法有很多,主要有基于规则的文本挖 掘方法 、基于统计的文本挖掘方法l3]、基于机器学习的文 的网络舆情倾向性预测方法虽然准确率较高,但对文章中词 汇色彩的判断阈值的设定问题仍然没有给出合理的方法。 提出基于文本的网络舆情倾向性预测模型,将基于中文 自动构词算法的SVM文本倾向性分类方法词库和基于信息 基金项目:中央高校基本科研业务费专项资金资助(2013JJ006) 收稿日期:2015一O1—15修回日期:2015—08—19 瓶颈的特征提取方法相结合,自动化的动态构建专用词库, 引入信息瓶颈概念,根据文章关键词的性质进行分类,在此 ...——323...—— 基础上,结合概念抽取的方法,将词聚类结果映射到知网义 3 基于文本的网络舆情倾向性预测模型 传统的网络舆情倾向性预测模型的倾向性分类结果在 很大程度上依赖于阈值的设定,并且文本倾向性的分类结果 无法识别文章对于敏感话题的观点是否偏激,导致网络舆情 倾向性预测分析准确率降低。提出基于文本的网络舆情倾 原,并以此作为分类特征完成网络舆情倾向性的预测。 2网络舆情倾向性预测原理 首先利用主题词判断方法剔除掉不相关的文本,然后对 网络中的不良信息进行甄别,其整体流程如图1所示。 不^ 囊事 图1预测流程图 2.1主题词上下文信息获取 在含有主题词的句子中常常会存在较多与倾向性预测 不相关的词语,需要对这些词语进行剔除,以减少对文章倾 向性判断的不利因素。引入x 计量理念提取文章主题词附 近的相关信息,其方法如下: 1)筛选出包含指定主题词的所有句子; 2)对筛选出的句子中的词汇色彩进行分析。 3)提取名词、形容词、副词和动词四类词语作为预备词 汇。 4)计算正反面两种样本中所有预备词汇的出现率以及 包含主题词的句子个数。 5)计算由正反面预备词汇做成的训练样本的x 统计 量,并将N个具有最大统计量的词语组成为主题词的上下文 信息。 2.2主题词倾向性值计算 主题词上下文信息的作用是由其本身与测试样本中含 有主题词的语句共同实现的。如果测试样本中某一语句不 仅具有主题词并包含训练得出的主题词上下文信息,则判断 该语句具有主题词的倾向性,并根据比例得出该语句的倾向 性权重。其倾向性权重计算方法如下 Weight=(Num+(word,term)一 ,.、 l J —Num一(word,Term))/Num(Term) 其中word是上下文信息词汇,而term是主题词。Num+ (word,term)代表word和term在正面测试样本中共同出现的 次数,而Num一(word,Term)则表示在负面测试样本中共同 出现的次数,它们的差值表示对于主题词倾向性的正负贡 献。 对文本中所包含的语句逐个进行计算,以向量的形式来 表达整个文本的主题倾向性。该向量值的大小则代表了测 试文本对于主题词的倾向性大小,进而预测出文本的倾向 性。传统的网络舆情倾向性预测方法主要是以网络舆论出 现频率大小为建模的前提,忽略了主观的文本倾向性产生的 干扰,导致网络舆情倾向性预测分析准确性差的问题。提出 基于文本的网络舆情倾向性预测模型在。 ...-——324--.-—— 向性预测模型,将中文自动构词算法的SVM文本倾向性分类 方法词库和信息瓶颈的特征提取方法相结合,有效提高了网 络舆情倾向性的预测准确度。 3.1 中文自动构词算法构建倾向性分类词库 中文文本自动构词就是从大量文本中通过某种方法自 动筛选出词语。首先,分别将训练文本和待分类文本切割成 比较短的句子,分别组成训练短句集合C和待分类短句集合 D。然后,依次比较集合C与集合D中每个句子,取出共同部 分,假定共同部分为一个词语,并记录该词语出现的频率。 比较完所有的短句后,按照词语频率统计结果,设定阈值筛 选出词库。 3.1.1 提取短句的公共部分 从两个短句中提取最长公共子序列的算法(LCS, LongestCommonSubsequenc)已经被广泛应用在各种文本处理 中。本文引入LCS算法并扬长避短来对文本中的词汇进行 提取,选出待测样本中所有公共部分长度不小于1的子序 0 0 O 列。其方法如下: O O 0 第一步,建立Matricx比较矩阵。设两个短句分别为A、1 O O B,各自包含的字符数量分别为m和n。Matrix就是一个 O l 0 m n的矩阵,其元素值为0和1。将A中第i个字符与B中第 0 0 0 个字符进行比较比较,相同时(i, )值为1,否则为0,即:O O O Ma :f ,A O (0 2) 0 L0A ≠ 0 0 0 ,以字符串“我是广东人,我爱广东”和“广东人很热情,l 0 0 广东很美”为例进行比较,其结果写成R 矩阵。 0 0 0 R.= 第二步,提取公共子序列矩阵R:,提取条件为长度不小 于1。在Matrix中筛选公共子序列即为寻找元素连续相同的 序列,以矩阵形式来看,就是矩阵对角线连续唯一的序列。 因此提取公共子序列的伪代码算法如下,结果如表2。 1) global Matrix;//全局变量,比较矩阵 2) i=1; 3) while(i<m) O 0 O O O O 0 O 0 0 4) { 5)j=1; 6) while(j<n) 7) { O 0 0 0 0 0 O O O O 0 O O O O O O O 0 0 1 O O 0 O O 2 O 0 0 农业 新华社 日电 8)if(Matrix[i][j]==1) 9) { 表达 世界 O 2 O O O 0 0 3 O O 10)Matrix[i][j]=Matrix[i-1][j_1]+1;0 0 0 0 信息 0 0 O O 0 O 0 0 0 O 最后完成对公共子序列矩阵R 的提取如下所知。 l 0 0 0 0 0 社会 O O 0 O O O O 0 0 0 O O O O O O O 0 0 0 3.2基于信息瓶颈的网络舆情概念特征提取 1 0 O O O O 1 O 3 O 0 O O O Rl: 第三步,提取公共子序列。对于长度大于2的字符串, 其子字符串就不再独立提出进行比较了。比如在矩阵中寻 找出子序列“广东人”,那么其包含的子序列“广东”和“东 人”就不再单独作为一个子序列提出来,所以提取公共子序 列的算法应该使用倒序的寻找方式。 3.1.2构造词库 对待测文本进行公共子序列提取后,需要采用统计算法 构建词库。 首先,构造一个名称为Map的哈希表以便对提取出的公 共子序列和出现频率进行存储。它的key代表子序列,value 代表出现频率。然后,m 盯 :2 盯 ∞ 依次遍历训练样本和待测样本的短句 集合,并从两个集合中提取出公共序列Seqs,遍历Seqs中的 每个子序列Seq,并判断其是否存在于Map中,若不存在,将 (key=Seq,value=1)插入Map中,若存在,让哈希表中键该 子序列对应的出现频率值加1。 最后一步,是对哈希表进行排序,排序标准为出现频率 的大小,根据设定阈值将不符合标准的子序列剔除,剩余序 列则构成所需词库。表3表示的是采用上述方法对一个中 文新闻样本库进行分析后所创建的词库,表中所示的是排名 前十位的词语。 表l 自动构词算法构建的词表 词语 频率 美国 15996 发达 8965 国家 4447 全国 5688 0 0 词汇分布聚类 是对关键词在不同样本中的位置进行 聚类分析的一项技术,0 O 该技术由Slonim和Tishby提出 ]。基 于信息瓶颈词群聚类的方法相对已经较为成熟,在文本分类 和聚类领域中的应用十分广泛,其应用效果已赶超历史较久 的词频法。与其它聚类技术比较而言,信息瓶颈词群聚类方 法具有自身独特的优势,提取某一随机变量 的聚类但并不 是单一的以 作为聚类本身的特征,而是将 与另一随机变 量y的进行相互作用后作为特征依据,因此信息瓶颈聚类方 法能够在最大程度上保留 与y之间的交互信息。任意随机 变量间的相互关系由它们的联合分布P( ;y)表达。为了在 最大程度上优化随机变量 的聚类 ,信息瓶颈法在 与 间最小限制的条件下将 与l,之间的交互作用最大化,因此 信息瓶颈算法的计算过程可以看做是对最优化数据进行求 解的过程:在联合分布p(x;2)上最大化1(2,Y)一13t( , ),其中卢代表退火因子,表达的是允许聚类 滤除的信 息。 由已知的信息瓶颈技术可以得出,该优化问题的求解过 程可以有下面的三个迭代值表达式求出 p(2 1)=器唧 P(y ln[ ]] (3) p(2)=∑P(下 )P( l X) (4) P(Yl )=∑P(YI下 X)P(XI 2) (5) 信息瓶颈聚类技术中,将X作为关键词的分布状况表 达,Y是关键词类标签在词库中的分布状况表达,由本文算法 得到的结果将对应于词聚类的分布结果。 采用以上方法对某一输入法的某一文本分类词库中的 部分词汇进行聚类,其结果如表4所示。在表4明显看出,聚 类1、2.5都与汽车相关。另外,对数据的分析发现聚类3则 与文艺类文本有关,聚类4则与运输类文本有关。 词汇分布聚类结果如下 1类词:上海车展车架发动机汽油变速器车型 路 虎 三厢吉普第九代索纳塔排量天籁噪声油耗 2类词:柴油仪表台整车三季度销量中重型上市 3类词:取得希望特长构建猛烈进展钢琴 4类词:辽宁中转站 .-.——325...—— O 3 5类词:刹车GL8涡轮增压索纳塔昂克雷疝气大灯改 装 行测试。其中正面样本和负面样本的数目相同,各有92条。 如某文本中含有对学校食堂抱怨的成分,那么判定此文本归 属为该话题,并判定为正面文本;反之判为不属于这类话题, 3.2.2 待测文本倾向性向量的计算 对待测文本中的词汇进行聚类后,要将其聚类结果转换 成性质为概念属性的元素,即知网义原。在对文本进行检测 时,要先对文本中词汇进行聚类,并将每一聚类的检测映射 其对应文本称为负面文本。 4.3实验结果与分析 本次实验的结果如表3所示,通过表3可以看出,本文 到其对应义原,然后计算其特征向量。在计算特征向量的过 方法较传统方法相比,对于全国高校论坛中的敏感话题识别 程中,每一聚类对应义原定义为Dc =U Dw ,即聚类对应 ” ‘ 的义原为该聚类内所有关键词所对应的知网义原的集合。 因此,可定义义原权值为 (6) 其中nc (d )表示义原d 在聚类C 中的出现次数,其值越大 权重越高。 4实验结果及分析 为了验证本文研究方法的有效性,需要进行一次实验, 下面依次对实验环境、实验数据、评价依据进行介绍,并对实 验结果进行分析。 4.1实验环境 系统:Windows XP SP2内存:1.00GCUP:Intel COl' ̄2 duo 6420 2.13GHz 4.2实验数据 本次实验的数据采集程序定期在全国各大高校的论坛 中收集文本,并依照本文方法预处理后进行存储。本次实验 将论坛中的帖子按照表2形式进行存储: 表2实验数据表 以“抱怨学校食堂”类的文本为例对相关话题的帖子进 ·---——326·---—— 准确率具有明显的优势。当文本特征值为5000时,两种算 法性能没有明显差别,但当特征值逐渐递减时,本文方法相 比传统方法准确率提高了3.4%,显示出本文方法显著的优 越性。因此,当待测样本数目巨大时,本文方法在准确程度 和资源消耗上具有优良的性能。 表3实验结果数据 5结束语 本文提出基于文本的网络舆情倾向性预测模型,将中文 自动构词算法的SVM文本倾向性分类方法词库和信息瓶颈 的特征提取方法相结合,自动化的动态构建专用词库,引入 信息瓶颈概念,根据文章关键词的性质进行分类,在此基础 上,结合概念抽取的方法,将词聚类结果映射到知网义原,并 以此作为分类特征完成网络舆情倾向性的预测。仿真结果 表明,研究方法能够有效提高网络舆情倾向性的预测准确 度,同时也增强了模型的鲁棒性。 参考文献: [1]熊忠阳,黎刚,陈小莉.文本分类中词语权重计算方法的改进 与应用[J].计算机工程与应用.2008,44(5):187—189. [2] 崔建明,刘建明,廖周字.基于SVM算法的文本分类技术研究 [J].计算机仿真,2013,2(30):299—303. [3] 洪宇,张宇,刘挺,李生.话题检测与跟踪的评测及研究综述 [J].中文信息学报.2007,21(6):7l-87. (下转第338页) 将所有可能性的调度方法看作搜索空间,然后利用蚁群算法 进行调度方案的寻优,最终获得更合理的调度方案。 分别利用传统算法和改进算法进行智能社区数据的调 度实验,不同算法的调度耗时能够用图2进行描述。 用、安全性和可靠性这四种因素的组合问题,也就是一个搜 索最优解的问题,将所有可能性的调度方法看作搜索空间, 利用蚁群算法对智能社区数据的调度方案进行寻优,最终获 得最优调度方案。仿真结果表明改进算法能够有效提高智 能社区数据调度的均衡性,提高了调度效率。 参考文献: [1] 于珊珊,陈冬林,李伟.基于SLA的云计算多数据中心任务调 度算法[J].武汉理工大学学报(信息与管理工程版),2014, (3):345-349. 堡 厦 鲁 慰 嚣 丑卜 [2]郑卉,郭平,李琪.基于带宽约束的云计算负载调度算法[[J]. 西南师范大学学报(自然科学版),2014,(7):121—128. 任务数量 [3] 封良良,夏晓燕,贾振红.实验基于资源预先分类的云计算任 务调度算法[J].计算机仿真,2013,(10):363—367. [4] 杨韬,邓红莉 基于云计算的社区养老平台研究[J] 电脑编 图2不同算法的调度耗时比较 程技巧与维护,2015,(5):66—66. [5] 宋晓彤.我国基于020模式的智慧社区发展研究[J].中国电 从图2中的实验结果能够得知,利用改进算法进行智能 社区数据的调度任务,调度的耗时明显低于传统算法。这是 由于传统算法没有充分考虑智能社区数据的异构性和动态 子商务,2014,(22):27—27. [6]杨航.大数据时代我国智慧社区运行模式研究f J].开封教育 学院学报,2015,(5):275-276. 性等特点,增加了调度过程的耗时。而改进算法能够利用蚁 群的迭代过程搜索最优调度方案,并对信息素进行了及时的 更新,更新后的调度方法更适合智能社区数据调度任务的准 则,得到智能社区调度策略的全部可能性,并在蚁群算法的 解空间内将调度方案一一对应起来,避免了智能社区数据的 动态变化性和异构性对调度任务造成的干扰,缩短了调度过 程的耗时。这充分体现出改进算法在智能社区数据调度方 面的优越性。 [7]岳敬华,张殉.智能社区云服务平台及服务模式研究[J].物 联网技术,2013,(9):83—86. [8]曹莹莹.以信息智能处理技术为引导的智慧社区的构建[J]. 计算机技术与发展,2015,(1):207—211. [9] 肖佳,王古城,杨旭,晁勇.双机热备与负载均衡的设计与实现 [J].电子设计工程,2015,18:176-179. [1O] 张燕,余庆泽.我国智慧云社区公共信息平台构架与应用功 能研究f J].科技管理研究,2015,(13):29-33. [作者简介] 5结束语 针对传统算法在智能社区数据调度方面的缺陷,提出一 种基于云计算的智能社区数据的调度方法。建立智能社区 数据的调度模型,将智能社区数据的调度问题看作时间、费 冉崇善(1956一),男(汉族),陕西富平人,硕士,教 授,主要研究领域为智能信息处理技术、计算机网络 与数据库技术; 杜宪(1989一),女(汉族),陕西省宝鸡人,硕士在 读,专业为计算机应用技术。 (上接第326页) [4] 苏贵洋,马颖华,李建华.一种基于内容的信息过滤改进模型 [J].上海交通大学学报,2004,38(12):31-36. [5]熊静娴,李生红.面向不良文本信息监控的概念网技术研究 [J].计算机工程与应用,2006,42(3):183-186. [6]刘永丹,等.基于语义分析的倾向性文本过滤[J].通信学报, 2004,25(7).78-85. [8]宗成庆.统计自然语言处理[M].北京:清华大学出版社 2oo8. [作者简介] 连淑娟(1983一),女(汉族),山东聊城人,硕士,一E 程师,主要研究方向:网络虚拟化和信息系统管理; [7] S Dumais,et a1.Inductive learningalgorithms and representations for text categoirzation[C].proceedings of Intenartional Conference Oil Information andKnowledge Management.New York,USA:ACM Press。1998:148—155. 薛 玉(1972一),女(汉族),山东临沂人,硕士,高 级工程师 主要研究领域:网络与信息管理。 一338一