专利名称:一种知识图谱数据抽取方法和系统专利类型:发明专利
发明人:洪万福,钱智毅,翁秀玲申请号:CN202010766824.5申请日:20200803公开号:CN111897781A公开日:20201106
摘要:本公开提供了一种知识图谱数据抽取方法和系统,所述方法,包括:S1,获取待抽取的原数据;S2,对原数据进行检查,并判断数据文件类型;S3,对图片类型文件运用光学字符识别技术,识别出文件中的字符;S4,提取文件中的字符内容,并生成包含字串列表的文本数据;S5,运用自然语言处理技术处理所述字串列表,提取所述文本数据中的实体和关系;S6,根据提取的实体和关系抽取知识图谱数据。所述系统包括:数据输入管理组件;数据结构辨识组件;光学字符识别组件;文本提取组件;自然语言处理组件;知识图谱构建组件。本公开所述的方法和系统能够丰富知识图谱数据抽取支持的数据种类。提高数据抽取工作的效率。扩充知识图谱潜在的数据源。
申请人:厦门渊亭信息科技有限公司
地址:361000 福建省厦门市软件园二期望海路61号801单元N8-01
国籍:CN
代理机构:北京鼎承知识产权代理有限公司
更多信息请下载全文后查看
因篇幅问题不能全部显示,请点此查看更多更全内容