径,在近年来的灾害应急救援中发挥着重要的作用%我国是一个风灾频发的国家,有效的管理和利用社交媒
体数据辅助减灾救援有着重要的理论和现实意义%然而目前,国内面向微博文本理解和情感分析在减轻灾 害方面的研究还十分稀缺%针对目前研究的不足,本文以中文社交媒体为研究对象,通过机器学习的方法挖
掘风灾期间的公众情感变化,并结合GIS空间分析技术对灾情的发展与影响进行刻画,最后以2017年台风
\"天鸽”登陆珠海市为案例证明方法的可行性%[关键词]台风灾害;中文社交媒体;公众情感分析;减灾应用[中图分类号]P208
[文献标识码]A[文章编号]1007 — 3000(2019)06 — 0652—50引言全球范围内频繁发生的自然灾害给人类的
博数据「6#等为代表的社交媒体为灾情信息挖掘工作 的研究提供了大量有效的数据,取得了显著效果。
相关科研成果涉及灾情事件检测\"8#、时空分析\"10#、
生命和财产安全造成了严重威胁,随着科技的不
灾害下社会响应特征探究B#等各个方面,极大地提
断发展,新的灾情信息收集手段不断地被发明和
高了减灾救灾工作的效率,且这些信息涉及方面 广、时效性强,对提高救灾效率有很大帮助。但 目前的大部分研究并不涉及社交媒体文本的理
使用,随着移动设备的普及和网络设施的发展,
社交媒体作为一种新的信息生产和传播手段备 受关注,因其广泛的参与性和多源的传播性
解以及蕴含情感的分析,同时也忽略了 GIS技术 在减灾防灾上的有效应用\"213#。已成为政府部门及时了解灾情进展的一项有效 手段)据美国红十字会2的一项问卷调查发现,
本文针对目前相关研究的不足,利用机器学
在灾害发生时,有28%的受访者表示会主动通过 社交媒体推送与灾害相关的信息,约一半的受访
习模型挖掘文本信息中的公众情感,并结合GIS
的热点分析(Getis-OrdGi \")与反距离权重插值
者表示会通过社交媒体来了解灾情进展,且超过 三分之二的受访者认为政府机构应该对社交媒
(Inverse Distance Weighted)对灾区灾情进行时
空分析,最后以2017年台风“天鸽”登陆珠海市 为案例分析该方法的可行性。体作长期监控。社交媒体作为新的辅助减灾手 段已在多次灾情救助中发挥了重要作用,例如
2012年7月21日晚北京市特大暴雨事件,公众
作为城市中的移动传感器为政府部门提供了
1研究方法微博中蕴含的公众情感信息可辅助救援工 作者及时了解到受灾区域的公众情绪,这些情绪 包括公众对于灾害本身的态度、对于政府救援工
许多重要的灾情信息,从而极大地提高了政府的 救灾效率。在如何应用社交媒体信息到减灾方面,国内外 作的反馈等,这对于优化救援决策和提高救援效 率有着重要的帮助。先后开展了相关研究。以Twitter\"# .Facebook\"#(微[收稿日期]2018—12—25\"作者简介]李振宇(1994 — ),男,海南海口人,硕士在读,研究方向为自然语言处理,灾害信息挖掘)E-mail: 270727482@qq. com第33 卷 第6 期李振宇•社交媒体的情感挖掘在服务减灾中的应用653微博中蕴含公众情感信息的抽取,目前主
emoticons\" ( https://en. wikipedia. org/wiki/ List_of_emoticons) o1.2数据的处理数据处理主要包括对文本分词以及去停用
要包含两种方法,即基于规则的方法和基于机
器学习的方法,前者通过构建情感词典来匹配 微博中的情感词计算微博的情感类别,这种方
法过于依赖情感词典,且对于情感词典中的未 登录词不能识别。后者则是通过训练机器学习
词,首先为了弥补微博文本特征稀疏的问题,需
要保留微博文本中的表情符号如“[允悲#\", “[笑哭+蜡烛丁'等表情符号,然后通过分词
模型来实现对文本情感的自动分类。相关研究 表明\"14#,在分类性能上,SVM优势较大,因此系 统通过集成SVM模型,实现快速准确的公众情
工具 NLPIR-ICTCLAS ( http://ictcbs. nlpir.
org/)对文本内容进行分词与词性标注,最后对
感分析。利用SVM抽取微博中蕴含的情感信息通常
分为两步:模型的训练和利用训练好的模型抽取 微博中蕴含的情感信息。整个算法流程如图1 所示。图1算法流程1.1数据的收集与清洗本文通过新浪微博高级搜索平台获取相关 的涉灾数据。为保证数据的相关性,本文采用关
键词过滤的机制,以台风“天鸽”登陆珠海为例, 通过设定关键词为“台风”(天鸽”(暴雨”等,判
断目标文本是否包含任意一个这些关键词来过 滤不相关微博。原始数据通常以非结构化的形
式存储在HTML页面中,进行结构化解析后将 相关有效信息进行存储,如微博文本、发布时间、 上传地点等。与其他互联网媒体的文本数据相
比,微博文本往往口语化严重、书写不规范等,所 以在使用之前需要对数据进行清洗。系统的数
据清洗功能包括繁简体文字间的转换、全半角字
符间的转换以及特殊符号的转化等。其中特殊 符号的转化主要针对微博文本中包含的特殊表
情符号,如“o( \" V \" )3'”、“ = ”等,这些符号通 常不能被数据挖掘算法识别,所以系统通过我们 收集的表情符号库对这些符号进行转化。如“。
(\"V \" )3”可转化为“[开心= ”可转化为
“[生气丁,表情符号库的建立可参考“List of
切分的词组使用哈工大停用词表进行文本去停
用词,其中针对部分文本中对分类无用的高频 词,如在台风灾害中的“台风,“天鸽,“珠海\"
等需要加入自定义的停用词表,在去停用词过程 中一并去除。1.3特征词抽取算法采用卡方统计量(chi-square statistic,
CHI)\"15#实现特征词的抽取,将数据处理后的词
组进行文本统计量的计算,同时选取特征词并构
造特征词列表,其计算过程如公式(1)所示B2 ( ,0)=
NX (AD - CB )2(A + C)X (B + D)X (A + B)X (C + #)(1 )
式中N代表训练数据集文档总数,A代表在一 个类别中,包含某个词的文档的数量I代表在 一个类别中,排除该类别,其他类别包含某个词 的文档的数量,C代表在一个类别中,不包含某个 词的文档的 数 量 !D 代 表 在 一 个 类 别 中 !不 包 含
某个词也不在该类别中的文档的数量。1.4特征矩阵构建针对卡方检验存在的低频词缺陷采用词频- 逆文档(Term Frequency-Inverse Document Fre
quency, TF-IDF)算法\"16#对特征词赋予相应的 TFIDF值构建SVM模型的特征输入矩阵,其计
算如公式(2)所示。.=—亠—x log D (2)
式中,8 @代表词语4在文件九中出现的次数,
#8, @则代表在文件九中出现次数的总和,1#|
代表语料库中的文件总数, 44 $ ? 51则表示包 含词语的文件数目 。1.5模型训练SVM模型训练的目的是为了寻找一个几何
654北京测绘第33卷第6期间隔最大的最优超平面,使得更多的样本点能正
确分布在超平面的两侧,从而得到高精度的分类 器。训练样本是由向量(即文本特征组成的向
3案例分析本文以2017年台风“天鸽”事件为例,据官 方报道,该台风于2017年8月23日12点50分 左右登陆广东珠海南部沿海地带,然后向西北
量)与标注(即文本所属分类)组成的集合# =
U, “),对于集合#超平面的定义如公式(3),
几何间隔的定义如公式(4))方向移动,并于当天14时离开珠海登陆台
gBJ = + K
实数参数。(3)山市。通过数据收集手段获取珠海市在灾害期间 的涉灾新浪微博信息共6042条,针对风灾登陆
式中,$多($1,$2,$3,…,$2%维向量参数,K为
在训练过程中因特征向量权重间距较大,为
了训练出更优的模型,需要对数据进行归一化处
理,最后选取对应参数并训练SVM分类模型。2算法实验2.1实验语料将所收集的灾害数据随机抽取部分数据进
行情感的人工标注。情感的标注分为“正面情
感”(中性情感”和“负面情感”三种。将每种类 别分别标注1000条文本。其中800条作为训练 语料,200条作为测试语料。2.2实验结果模型的评价标准采用准确率P、召回率R和综合评价指标Ma 1,其计算公式如(5) -(7)所示:门 正确分类的情感信息条数 ! $
(/5)、对应情感类别下信息识别的总条数! $ 正确分类的情感信息条数 ⑹
对应情感类别下信息应有的总条数值 $ 2\"!\"L
(7)基于召回率、准确率和M-1值得评价标准,
最终得到的各类别的计算精度如表1所示。表1实验精度情感类别召回率R/%准确率!/%综合评价 指标M-1/%正面情感73.1596.4683.20中性情感94.6374.3883.29负面情感71.8193.0481.06本文同时对比了其他机器学习算法,包括
KNN和N2ve Bayes,结果发现SVM在各类别
上的综合评价指标F1值最咼,都在80%以上。
总体来说,算法的整体性能基本满足了本文的预
期要求。前后筛选22日(3日(4日的3天的数据,并过 滤掉未携带位置信息的博文信息,最后得到共
599条涉灾数据,同时通过已训练好的SVM模
型对数据进行分类,根据情感的不同给予博文不
同的权重,如正面情感为1,负面情感为1,中性 情感为0)将情感分类结果根据时间趋势统计涉灾数
据量的变化,如图2所示。同时为了进行相关的 空间分析,需将涉灾数据定性化的自然地理位 置属性如“珠海・三灶镇”转化为可展示的定量
化地理坐标信息,对此本文采用百度地图开放 平台提供的坐标转换服务实现地名地址转换。
将转换后的经纬度导入ArcGIS中转换为点坐 标,通过ArcGIS提供的热点分析找出公众情感
置信度高的冷点与热点,同时根据得到的Z得 分进行反距离权重插值,最后将分类区间统一
后即可获取情感的空间聚类情况,结果如图3、
图4、图5所示。N40 KM图3 8月22日珠海市公众情感空间聚类第33 卷 第6 期李振宇 社交媒体的情感挖掘在服务减灾中的应用655N户,而负责珠海市供水的珠海水务集团也于当日
12时发布停水通知称受供电影响将造成香洲、斗
门、金湾区的用户停水。由图2可知,在台风过境珠海后一天中,虽 然负面情感仍占多数,但并未出现大的涨幅,反
观正面情感的数量开始大幅度增多,其具体博文
40 KM图4 8月23日珠海市公众情感空间聚类大多表现出公众对政府救灾的感激与肯定,同时
通过图5珠海24日的情感空间分布发现,香洲、
斗门、金湾区等皆出现正面情感的空间聚类,由 N.658045491 - 1. 850329399图5 8月24日珠海市公众情感空间聚类台风于22日24时仍处于我国南海海域内, 如图2所示,在台风登陆前珠海市与台风相关博
文的情感主要以中性情感为主,同时存在部分正
面情感与小部分负面情感,从图3可看出,正面 情感聚类的空间位置相对于负面情感更多。通 过查看正面情感的具体博文信息发现大部分与 天气有关且多表现为对台风的期待。据中国天
气网显示在台风登陆前珠海市都处于高温天气, 许多市民希望通过台风带来的降雨能结束连续 的高温天气;反观相对较少的负面情感的内容则 呈现出一种紧张氛围,小部分市民对即将到来的
台风会造成的影响仍十分担心。台风于23日12点50分左右登陆珠海,如图
2所示,随着台风的过境公众情绪开始发生巨大
的变化,负面情感占比较22日明显增大,通过具 体的博文信息发现受灾市民大多表现出对强台
风风力的恐惧与对水电供应中断的抱怨,可推测 珠海市受台风的影响随着时间的推移愈来愈大,
其中水电供应中断是困扰珠海市市民最大的原
因。根据图4所示,负面情感大多集中在珠海市
金湾区,证明金湾区在23日受影响程度相对其
它区域更为严重,急需应急救援。据珠海市政府 发布消息称,截至23日16时,珠海电网共有681
条线路跳闸,39个变电站失压,累计停电68万
此可推断珠海市香洲区的水电中断的情况最先 得到了救援,政府的救援工作取得初步的成效)
分析结果符合新浪网有关24日珠海水电供应恢
复情况的报道。4结束语通过分析社交媒体中有关灾害公众情感,能
够快速高效地刻画灾情,为减灾救灾部门及时制
定有效的应对措施提供了技术支持。本文基于 此需求,以2017台风“天鸽”为案例,通过使用机
器学习模型挖掘发生灾害时受灾区域的公众情 感,并通过GIS时空分析技术分析其时空变化,
完整有效地刻画了灾情的进展,最终结果同灾后 官方发布的统计信息基本一致,从而表明本文方 法在灾害响应和应急分析上的有效性。基于公众使用微博的习惯,并不是所有人都 会上传微博位置信息,从而导致数据利用率不足,
但研究发现,微博文本中往往包含用户的空间隐喻 位置信息,下一步将考虑引入地理命名实体识别算
法抽取隐喻位置,更好地展示与分析灾情进展。参考文献彭敏,官宸宇,朱佳晖,等•面向社交媒体文本的话题检测与
追踪技术研究综述:J#.武汉大学学报(理学版),2016, 62
(3):197-217.[2# American Red Cross. More Americans using mobile apps in e
mergencies [EB/OL#. (2012-08_31) [2013-04-10#. http:// www. redcross. org/news/pressrelease/More-Americans-U-
sing-Mobile-Apps-in-Emergencies\"#牟乃夏,张恒才,陈洁,等•轨迹数据挖掘城市应用研究综述
\"#•地球信息科学学报,2015, 17(10):11361142.[4# SAKAKI T,OKAZAKI M,MATSUO Y. Tweet Analysis for Re
al-Time Event Detection and Earthquake Reporting System Development\"#. IEEE Transactions on Knowledge C Data En-
gineeri昭2013,25(4) :919-931.\"# BIRD D, LING M, HAYNES K. Flooding Facebook-the
656北京测绘第!卷第6期!0\"陈梓,高涛,罗年学,等.反映自然灾害时空分布的社交媒体
Use of Social Media during the Queensland and Victorian Floods!\" - Australian Journal of Emergency Management,
有效性探讨!\"•测绘科学,2017,42(8):44-4 &!叮刘宏波,翟国方•基于社交媒体信息不同灾害的社会响应特
征比较研究!\"•灾害学,2017,32(1):187193.!2\"冯冬宁,薛重生,张兴福,等.基于GIS的滑坡灾害应用研究
2012, 27(l):27-33.王艳东,李昊,王腾,等•基于社交媒体的突发事件应急信 息挖掘与分析!\"•武汉大学学报(信息科学版%, 2016, 41
(3):290-297.[7] SAKAKI T, OKAZAKI M, MATSUO Y. Earthquake
:J\".北京测绘,2008(3):20-22.!3\"杨亮,邹逸江.基于GIS的沿海农房防台减灾预警初步框架
Shakes Twitter Users: Real-time Event Detection by Social 研究!\"•北京测绘,2009(3):13-17.SensorsUC\" \"International Conference on World Wide Web. ACM, 2010:851-860.[14\" BURBIDGE R, TROTTER M, BUXTON B, et al. Drug
Designby MachineLearning: SupportVector Machinesfor Pharmaceutical Data Analysis!\". Computers _ Chemis- try#2002#26(1):5-14!15\" YANG Y#PEDERSENJO A ComparativeStudyonFea-
QU Y, HUANG C, ZHANG P, et al. Microblogging After
a Major Disaster in China: A Case Study of the 2010 Yushu Earthquake^C\" \" ACM Conference on Computer Supported Cooperative Work, CSCW 2011, Hangzhou, China, March.
ture Selection in Text Categorization [C\" \" Proc. Interna- tionalConferenceon MachineLearning 1997:412-420!16\" JONESKS AStatisticalInterpretationofTermSpecificity
DBLP, 2011:25-34.!\" CHAE J, THOM D, JANG Y, et al. Public Behavior Re
sponse AnalysisinDisasterEventsUtilizingVisualAnalytics of Microblog data!\". Computers & Graphics, 2014,38$ 1): 51-609andIts Applicationin Retrieval!J\" Journalof Documenta- tion#1972 28(1):11-21Emotional Mining on Social Media Serves Disaster
Reduction ApplicationsLI Zhenyu(School of Geomatics Science and Engineering, Shandong University of Science and
Technology, Qingdao Shandong 266590, China)Abstract: Social media has become an important way to obtain disaster information because of its extensive public par
ticipation and rapid dissemination of multi-source information. It plays an important role in disaster emergency rescue in recent years. China is a country with frequent windstorms. Effective management and use of social media data to as
sist disaster reduction and rescue has important theoretical and practical significance. However, at present, domestic researchon microbloggingtextunderstandingandsentimentanalysisindisastermitigationisstilveryscarceBInview
of the shortcomings of the current research, this paper takes Chinese social media as the research object, and uses the machinelearningme1hod1omine1hepublicemo1ionalchangesduring1hes1orm#andcombines1heGISspa1ialanalysis
technology to describe the development and impact of the disaster. Finally, the 2017 typhoon Hato landed in Zhuhai Ci1y as a case1o prove1he feasibili y of1he me1hod.Key words: typhoon disaster; Chinese social media; public sentiment analysis; disaster reduction application
因篇幅问题不能全部显示,请点此查看更多更全内容