●王 伟(东北财经大学 图书馆,辽宁 大连 116025)
基于语义挖掘的智能竞争情报系统研究
摘 要:语义挖掘是一种从非结构化数据中准确地提取有用信息和知识的新兴数据挖掘技术。利用语义挖掘对这些非结构化数据和信息进行智能采集、分析和处理,可以帮助企业快速建立起经济有效的竞争情报流程。本文融合语义挖掘的相关技术来探索竞争情报的智能采集与分析原理,构建了一个基于语义数据挖掘的企业智能竞争情报系统。
关键词:竞争情报;语义挖掘;本体;网络挖掘
Abstract:Semanticminingisanewly2emergingdataminingtechnologyusedtoexactlyextracttheusefulinfor2mationandknowledgefromunstructureddata.Theapplicationofsemanticminingforintelligentacquisition,analy2sisandprocessingofunstructureddataandinformationcanhelptheenterpriseestablishtheeconomicalandeffec2tivecompetitiveintelligenceflowquickly.
Thispaperusestherelatedtechnologyofsemanticminingtoprobeinto
theprinciplesofintelligentacquisitionandanalysisofcompetitiveintelligence,andfinallyconstructsasemanticmining2basedintelligentcompetitiveintelligencesystem.Keywords:competitiveintelligence;semanticmining;ontology;Webmining
1 企业竞争情报系统存在的问题
竞争情报系统(CompetitiveIntelligenceSystem,CIS),也有人称之为BIS,即BusinessIntelligenceSystem。竞争情报系统是在企业竞争战略管理实践中出现的新概念。美国竞争情报从业者协会(SCIP)前主席、美国匹茨堡大学商学院教授J.E.Prescott博士认为:企业竞争情报系统是一个持续演化中的正规和非正规化操作流程相结合的企业管理子系统,它的主要功能是为组织成员评估行业关键发展趋势,把握产业结构的演化,跟踪正在出现的不连续性变化,以及分析现有和潜在竞争对手的能力和动向,从而协助企业保持和发展可持续性的竞争优势。IBM公司认为:“企业要想在当今获得行业的主导地位,就必须建立分析型系统,即那种能为制定关键战略决策提供信息和思想的系统”,而企业竞争情报系统就是这样一种系统。企业竞争情报系统是以人的智能为主导,以信息网络为手段,以增强竞争力为目标的人机结合的竞争战略决策支持和咨询系统,可为企业赢得竞争优势提供强有力的智力支持和情报保障。因此,在发展竞争情报咨询的过程中,应把建设企业竞争情报系统放在重要的位置上。但目前的企业竞争情报系统还存在着如下问题。
1)情报采集质量效果差。这一点主要表现为情报采
行自动收集和简单分析,其检索结果数量大且多为重复的、非相关的、浅层的甚至是虚假的信息。在此,笔者以人们最常用的“关键词搜索”为例。假设一位生物研究学者,需要查询关于“企鹅”的资料。当他按照传统的方式输入关键词“企鹅”,结果出来了一大堆“企鹅”牌冰箱之类的搜索结果。这些结果对于“关键词搜索”来讲完全“正确”,但显然不是用户期待的结果。问题出在“关键词搜索”中,唯一的依据是是否包含查询的字符。而实际上在海量的非结构化信息中,通过人们输入的搜索请求,理解用户真正的查询意图,从而提供给用户预想中的结果,这才是“搜索”的最终目标。
2)情报处理缺乏智能性。在信息处理方面,有的系
统是把收集到的信息简单整理后,交给竞争情报人员进行人工定性分析和经验判断,存在较多不确定因素,结果的随机性较大。有的系统虽然采用一些简单的统计分析方法。但都是较浅层次地处理,没有将信息转化为准确的情报,更无法获取潜在的情报。大多数系统虽然可以对结构化数据实现自动筛选和去重,但对半结构化、非结构化、异构分布式数据还不能进行有效地加工。应用“基于语义的数据挖掘”技术将解决“关键词搜索”无法完成的任务。在语义数据挖掘中,上面提到的用户就可以通过输入“企鹅,一种生活在寒带的鸟,它的生活环境”这样的文字,通过文字内容来表达自己的需要,计算机就能给出最佳的检索结果,这些结果不一定包含搜索请求的全部文
集的重复性、非相关性和表层化。当前竞争情报采集系统大多是借助类似搜索引擎等检索工具对因特网上的信息进
・情报理论与实践・—773—
信息系统
字,但在语义上它们会是用户真正想要的。
为了解决上述问题,企业竞争情报系统有必要引入语义数据挖掘技术,通过对竞争情报信息源的语义分析,来获取信息或数据的总体特征,并将非结构化的数据转换成结构化的数据,经过一系列的数据清理、集成化存入企业的数据仓库中。在此基础上,应用竞争情报的分析方法,为企业管理层提供预测与决策的依据。基于语义数据挖掘技术的应用,将是企业用户对“搜索引擎”服务的最终要求,它是实现由竞争情报简单收集到智能化的知识管理的一个必然的技术发展阶段。
ITA
的概念,语义相似度反映两个概念相互替换的程度,可用于本体之间相似度计算以达到实现同一历史交易数据源和不同数据源中匹配相同知识。语义相关度包含了语义相似
[2]
度的概念,反映概念之间的关联程度”。语义Web中语
义的核心就是Ontology,在本体研究中,蕴涵在实体存在本质这个抽象概念之后的,实际上是一种对事物(或领域)的认识观,这种认识观认为实体存在于与它关联的其他实体之间,存在于它自身的变化之间;具体的实体与它们之间的关联一起构成具体的存在,对具体的存在进行总的概括,产生抽象的存在;这些实体及其之间的关联形成事物(或领域)的语义。公理是本体的重要元素,用于表示一些实例。更具体地说,在许多领域中,函数之间或关联之间也存在着关联或约束。比如,在企业本体中有如下这样一些公理“如果存在一个组织类实例,则至少存在一个岗位类实例作为这个组织类实例中的一个岗位”,或“任何岗位属于且仅属于一个组织”,等等。它们用更形式化一点的语言可以表示为:
ϖO・O 2 语义数据挖掘的支撑技术 所谓“基于语义数据挖掘”,简单地说,就是利用语义(概念)的智能计算,实现对海量非结构化信息的整理,并从中挖掘数据价值。即把以前只能由自然人来做而无力完成的归类、分析、比对、归纳等工作,交由计算机自动地完成,其结果除了供用户进行语义检索,还可以直接提供可供决策参考的分析结果。目前,它的支撑技术主要有:Ontology、Web挖掘技术和模糊数据挖掘技术等。 211 Ontology本体表示共同认可的,可共享的知识,本体可以被看做是一种概念化的显式说明,是对客观存在的概念和关系的描述。它通过对概念的严格定义和概念与概念之间的关系来确定语义,并将隐含在研究者头脑中的概念模型表达出来,大大减小了对问题域中概念和逻辑关系可能造成的误解,减少了知识的语义不确定性。因此,本体是解决语义层次上信息共享和交换的基础。 212 Web挖掘技术 本体(Ontology)最早是一个哲学上的概念,是客观存在的一个系统的解释或说明,它关心的是客观现实的抽象本质。近年来,许多计算机和人工智能领域的专家和学者应用了这个概念,并给出了许多不同的定义。目前,一个普遍接受的定义是1998年Studer等提出的“本体是共 [1] 享概念模型的明确的形式化规范说明”,它包含了4层 含义:①概念模型(Conceptualization)是通过抽象出客观世界中一些现象(Phenomenon)的相关概念而得到的模型,其表示的含义独立于具体的环境状态。②明确(Ex2 plicit)是指所使用的概念及使用这些概念的约束都有明确 随着Web数据量及复杂性的不断增加,如何从与万维网相关的资源与行为中抽取感兴趣的、潜在的有用模式和隐含信息,Web挖掘技术就成为一个有效的途径。Web挖掘是数据挖掘与Web相结合的产物,是指“从Web文档和Web活动中抽取对用户感兴趣的、潜在的有用模式 [3] 和隐藏的信息的过程”。 的定义。③形式化(Formal)是指Ontology是计算机可处理的。④共享(Share)是Ontology中体现的共同认可的指示,反映的是相关领域中公认的概念集,它所针对的是团体而不是个体。 Ontology的目标是捕获相关领域的知识,提供对该领 Web挖掘分为:Web内容挖掘(WebContentMin2 ing)、Web结构挖掘(WebStructureMining)、Web使用 域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇之间相互关系的明确定义。作为一种能在语义和知识层次上描述信息检索的概念模型建模工具,具有良好的概念层次结构和对逻辑推理的支持。Ontology主要包括两部分:元数据和实例。在语义Web环境下,所有的信息都是以元数据的方式存储的。 “本体映射最重要的过程就是发现语义关联。语义关联包括语义相似度和语义相关度的研究,它们是两个不同 记录挖掘(WebUsageMining),如图1所示。 Web内容挖掘,即一种基于网页内容或描述中抽取知 识的过程。它又包括对网页内容的挖掘(WebPageCon2 tentMining)和对检索结果的挖掘 (SearchResultMin2 ing)。这些网页内容和检索结果既有文本数据,也有图 像、视频和音频等多媒体数据,既有来自于数据库的结构化数据,也有用HTML标记的半结构化数据和非结构化的自由文本。对非结构化的自由文本的挖掘称之为文本的知识发现;对图像、视频和音频等数据的挖掘称之为多媒体 —774—・第31卷2008年第5期・ ITA 信息系统 关联规则的算法属于无监督学习的方法。发现关联规则通常要经过以下3个步骤:①连接数据,做数据准备。②给定最小支持度和最小可信度,利用数据挖掘工具提供的算法发现关联规则。③可视化显示、理解、评估关联规则。 213 模糊挖掘技术 模糊相关信息检索的思想来源于模糊集合理论,它通过索引项之间的相关度来优化检索结果,使一些与查询关 图1 Web挖掘的分类 键字不直接对应的文档也被检索出来,即可实现模糊集合理论对信息检索过程不确定性的建模。经常用到的算法就是模糊聚类分析[4],具体步骤如下。 21311 确定模糊集 建立样本特性指标矩阵,设聚类的 数据挖掘。Web结构挖掘是从万维网的组织结构和链接关系中推导知识。由于文档之间的互联,万维网能够提供除文档内容之外的有用信息。利用这些信息,可以对页面进行排序,发现重要的页面(如使用PageRank和CLEVER的Hits算法)。Web使用记录挖掘也称为Web日志挖掘,它的主要目标是从Web的访问记录中抽取感兴趣的模式。万维网中的每个服务器都保留了访问日志(WebAccess Log),记录了关于用户访问和交互的信息。分析这些数据 对象的全体集合X={x1,x2,…,xn},为了使分类效果科学合理,首先要选取具有实际意义且有较强分辨性和代表性的统计指标。现假设X中每一个元素Xj(j=1,2,…,n)有m个统计指标Xij=(x1j,x2j,…,xmj),其中,分量Xij表示第j个元素的第i项统计指标值(i=1,2,…,m;j=1,2,…,n)。本步骤的关键是统计指标值的求法。统计指标值反映实际的精确程度,是取得最优聚类的先决条件,由于各企业的实际情况不一样,所选取的统计指标也应各不相同。因此,统计指标值的求法因实际问题而定。 21312 对样本特性指标矩阵进行标准化 在实际问题中, 可以帮助理解用户的行为,从而改进站点的结构或为用户提供个性化的服务。 Web挖掘技术是一项综合技术,通过Web挖掘相关算法可实现对结构化、非结构化和半结构化数据的分析、转换及获取。语义Web挖掘包括两方面的含义:一方面是从现有Web文档中抽取语义,辅助Web挖掘;另一方面是直接利用语义Web中已有的语义结构来挖掘Web。语义Web挖掘可以对Web上大量文档集合的内容进行总结、分类、聚类、关联分析等处理。 1)文本总结。文本总结是指从文档中抽取关键信息, 通常不同的数据有不同的量纲。因此,需要根据模糊矩阵的要求,进行标准化处理。一般可通过以下变换来实现。 1)平移/标准差变换。x′ik=xij-xj sj (i=1,2,…,N;j=1,2,…,m(1) 用简洁的形式对文档内容进行摘要或解释。其目的是对文本信息进行浓缩,给出它的紧凑描述。这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容。文本总结在有些场合十分有用。例如,搜索引擎在向用户返回查询结果时,通常需要给出文档的摘要。 2)文本分类。分类的概念是在已有数据的基础上学 其中,xj=1n i-1 ∑xij,sj= n 1n i-1 ∑(xij-xj)2。 n 2)平移/极差变换。x″ij=x′ij-min{x′ij} 1≤i≤n1≤i≤n max{x′ij} n ij -min{x′ij} 1≤i≤n (j=1,2,…,m)(2) 会一个分类函数或构造出一个分类模型,即通常所说的分类器。分类器分为训练和分类两个阶段。分类往往表现为一棵分类树,根据数据的值从树根开始搜索,沿着数据满足的分支往上走,走到树叶就能确定类别。分类器的构造方法有统计方法、机器学习方法、神经网络方法,等等。 3)文本聚类。文本聚类是一种典型的无教师的机器 显然有0≤x≤1,而且也消除了量纲的影响。 21313 标定(计算相似度) 所谓标定,是指根据实际 情况,选用一定的方法对对象进行比较得出模糊相似矩阵。根据上面已建立的指标体系Xj(j=1,2,…,n),求出相似系数rij,rij表示Xi与Xj按m个特征相似的程度,得到模糊相似矩阵R=(rij)m×n。本步骤的关键是如何合理地求出相似系数rij,由于求相似系数的方法很多,而且需要因实际情况不同而选用不同的方法。求相似系数的方法主要有最大最小法、算术平均值最小法、几何平均值最小法、相关系数法、夹角余弦法、距离法、数量积法、绝对值指数法、绝对值倒数法、绝对值减数法等。为了确定各个样本之间的关系,通常采用两种度量来表示样本之间 学习问题。目前的文本聚类方法大致可以分为层次凝聚法和平面划分法两种类型。聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。它的目的是使得属于同一类别的个体之间的聚类尽可能地小,而不同类别上的个体间的距离尽可能地大。 4)关联分析。关联规则模式数据描述型模式,发现 ・情报理论与实践・—775— 信息系统 的接近程度: 1)相似度r:用来表示样本之间相似程度的度量,r ITA 企业竞争情报系统的建设可以以互联网、内联网和其他信息源为平台,做到组织网络、信息网络和人际网络相结合,先进性和实用性相结合,建立以竞争环境、竞争对手和竞争策略的信息获取和分析为主要内容、具有快速智能反应能力的工作系统。基于语义挖掘的智能化企业竞争情报系统主要由信息源模块、语义挖掘模块、数据仓库和情报分析模块构成,按照处理流程分为竞争情报采集、竞争情报处理和竞争情报分析3个阶段。 1)竞争情报采集阶段。竞争情报是企业认清市场和 越接近1则两个样本之间的相似程度就越高。 2)距离d:将两样本看做是m维空间的一个点,定 义点与点之间的距离d,d越小则两样本越接近。 根据各个分类对象的不同属性因素的标准化数据来计算各个样本间的相似程度rij。这里采用夹角余弦法来计算样本间的相似度: 设两个向量α={a1,a2,…,an},β={b1,b2,…,bn},则由两个向量的夹角余弦求得的相似度为: rij=k=1nn 竞争形势的重要工具,是企业信息化的重要环节。随着互联网技术的不断发展,网络上可用的信息资源以指数形式 (3) ∑aik・bij 2 k=1 k=1 ∑aik∑bjkn 增长,它已经成为竞争情报一个主要资料来源。网络是发展竞争情报的重要支撑和先进工具,是打开竞争情报资源宝库的钥匙,谁掌握了网上竞争情报源,谁就掌握了市场竞争的主动权。在本阶段,按照情报计划阶段定义的情报需求,从信息源模块中收集相关信息,对数据进行过滤和分类存储,并将检验、整理、重新组织后的结构化数据直接存入企业竞争情报数据仓库。 与此同时,信息源模块中还有大量有关企业内外部的新闻、邮件以及竞争对手的信息、企业自身的信息、市场信息等非结构化和半结构化的信息。非结构化信息指的是“各种看似相关性比较弱、无法用关系型数据库等结构化 [5]的方式来获取和处理的信息”。对此,竞争情报系统只 2 3 基于语义挖掘的智能竞争情报系统构建 针对企业竞争情报系统面临的挑战,语义数据挖掘技术提供了一个可行的解决方案。那就是应用先进的智能理论及其技术,对信息资源和用户提问进行一系列的语义解析,通过挖掘其深层语义,从而充分、精确地表达知识资源和用户需求,进而在各类分布的、异构的数据库、数据仓库、知识库中进行检索,并对检索到的信息进行智能化处理之后,返回最相关的结果的语义检索机制。企业竞争情报系统要求其数据平台建立在企业集成数据环境下,仅以企业的MIS和ERP数据库为数据源是不足以支持企业竞争情报系统进行决策分析的,因为传统数据库对大量历史性数据的分析处理能力有限,数据源也不足,因此要利用互联网和内联网构成企业内外网互联结构实现企业全方位的系统集成,利用数据仓库技术实现面向主题的数据的集成,利用语义数据挖掘技术充分实现数据分析,从而构成一个为企业高层决策服务的全面高效的企业竞争情报系统。根据语义挖掘在竞争情报收集和信息分析中的优势,笔者综合应用语义数据挖掘、数据仓库及竞争情报分析技术,构建了基于语义挖掘的智能竞争情报系统模型,如图 2所示。 有经过语义挖掘才能将半结构化和非结构化的转换成结构化的数据,并经初步组织加工后存储在企业竞争情报数据仓库中。 2)竞争情报处理阶段。企业竞争情报系统是一个以 竞争情报为处理对象的决策支持系统,按照一位数据仓库系统构造方面的领头设计师W.H.Inmon的说法,“数据仓库是一个面向主题的、集成的、时变的和非易失的数据 [6]集合,支持管理部门的决策过程”。在本系统中,经过 语义数据挖掘技术,将各种跨平台的数据重新组合,构成面向决策的数据仓库。采用以数据仓库为数据库平台的语义数据挖掘技术实现竞争情报数据信息处理,能够及时有效地为企业决策服务。比如,通过模糊挖掘技术实现数据仓库内数据的语义表示。利用隶属度的概念来描述那些处于“属于”和“不属于”之间的模糊事物。将隶属度记为μA(X),其中A为模糊集,X为候选的集合元素。当μA(X)取“0”时,元素X就“不属于”A,当μA(X)取“1”时,元素X就“属于”A,这时的A就是经典集合。当μA(X)取“0~1”的小数时,A就成为一个模糊集合。这样,对那些模糊事物的性状就有了一个可靠的定量分析方法。 (下转第723页) 图2 基于语义挖掘的智能竞争情报系统 —776—・第31卷2008年第5期・ ITA 5)软硬件水平。主要指信息机构的计算机及其他软 [6] HirshonA. 实践研究 Internationallibraryconsortia:positivestarts, JournalofLibraryAdministration, 硬件的配套水平、网络环境以及软硬件的升级能力等。promisingfutures[J]. 6结束语 动态联盟作为21世纪最有前途的动态集成组织,已 2001,35(1/2):1472166 [7]蒋敏.中国图书馆联盟的建设与信息资源共建共享的发展 [J].图书馆研究与工作,2006(4)[8] McCabeM,SnyderC.Theeconomicsofopenaccessjournals[R].[S.per,2006 [9]屠航.动态联盟:图书馆馆际合作的新途径[J].情报杂 l.]:GeorgiaInstituteofTechnologyWorkingPa2 经在制造业领域取得了巨大的成功。目前,信息技术以及互联网络的飞速发展,为动态联盟的构建提供了便利的条件,信息机构应该抓住时机,充分利用现有技术和资源,为社会提供更好的信息服务。□ 参考文献 [1] PreissK,GoldmanSL,NagelRN.2lstcenturymanufactur2ingenterprisesstrategy:anindustryledview[R].LacoccaInstitute,LehighUniversity,1991 [2]郭慧1第三方物流企业动态联盟的伙伴选择及关系管理 [D].大连:大连海事大学,2002[3] FCC’srulesat47C1F1R.Section541500(d).[2006201220].http://www. fcc.[EB/OL].[s. l.]: 志,2003(3) [10]叶宏.动态联盟:信息资源开发中新的运作模式[J].情 报杂志,2005(1) [11]林鸣,马士华.动态联盟:项目管理新模式[M].北京: 电子工业出版社,2003[12]刘雷,李南.建设项目动态联盟运作模式研究[J].工业 技术经济,2007(3) [13]刘雷.基于项目的动态联盟合作伙伴选择[J].统计与决 gov/Bureaus/Engineering_Technology/Documents/cfr/1997/47cfr54.pdf[4] Onlinedictionaryforlibraryandinformationscience[EB/OL].[5] [2006201220].http://lu.com/ 策,2006(14) 作者简介:赵飞,男,1984年生,硕士生。 赵捧未,男,1958年生,博士,教授。苏山佳,男,1984年生,硕士生。 收稿日期:2008-04-11 KoppJJ.Libraryconsortiaandinformationtechnology:thepast,thepresent,thepromise[J].andLibraries,1998,17(1):7212 InformationTechnology (上接第776页) 3)竞争情报分析阶段。竞争情报的分析是企业CIS 传统的竞争情报系统相比,将语义数据挖掘技术引入到竞争情报系统的构建中,将有利于提升企业竞争情报工作的智能化水平并推动其从信息管理向知识管理方向发展。□ 参考文献 [1] StuderR,etal.[J]. Knowledgeengineeringprinciplesandmethods 的核心,在本阶段,系统通过常规分析与智能分析来完成竞争情报分析工作。 常规分析提供了各种常规的竞争情报分析模式,协助竞争情报人员进行情报分析。可以提供的分析模式包括:定标比超法,SWOT分析,反求工程,五竞争力模型,财务报表分析,战略联盟等。 对竞争情报工作人员来说,仅仅依靠直觉判断以及归纳、推理等常规方法来进行数据分析是远远不够的,必须采用有效的数据挖掘算法对存放在数据仓库中的数据进行挖掘。智能分析提供了访问数据仓库、调用数据挖掘算法的功能。它包括多种数据挖掘工具,可以实现多种数据挖掘算法,如分类、聚类、关联规则以及时间序列挖掘等。 DataandKnowledgeEngineering,1998,25(122): 1612197 [2]傅魁,聂规划.基于语义Agent的谈判提案效用挖掘研究 [J].情报杂志,2007(8):75278 [3]吴金红,张玉峰,王翠波.基于本体的竞争情报采集模型 研究[J].情报理论与实践,2007,30(5):5772583 [4]许海洋,汪国安,王万森.模糊聚类分析在数据挖掘中的 应用研究[J].计算机工程与应用,2005(17):1772179 [5]黄国涛.用于竞争情报的数据挖掘技术研究[J].情报杂 志,2007(4):72274 4 结束语 智能化的情报收集与分析技术是竞争情报系统研究与应用的核心问题。语义数据挖掘作为新兴的智能化信息检索与分析技术,能显著提高企业竞争情报系统的效率。与 [6]InmonWH.Buildingthedatawarehouse[M].王志海,林 有芳,译.北京:机械工业出版社,2003:21 作者简介:王伟,男,1978年生,硕士。收稿日期:2008-03-28 ・情报理论与实践・—723— 因篇幅问题不能全部显示,请点此查看更多更全内容