[发明专利]古谱及古文化知识图谱自然语言处理方法在审

申请号：	201810269797.3	申请日：	2018-03-29
公开（公告）号：	CN108509420A	公开（公告）日：	2018-09-07
发明（设计）人：	赵维平;孙宁	申请（专利权）人：	赵维平;孙宁
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/28;G06F17/30
代理公司：	上海唯源专利代理有限公司 31229	代理人：	曾耀先
地址：	200040 上海***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了一种古谱及古文化知识图谱自然语言处理方法，包括：根据古谱和古文化专业知识，创建古谱及古文化的知识图谱的模式；获取数据和抽取信息；融合知识，包括链接实体和合并知识；集成古谱及古文化知识库模式与数据，解决模式和数据的冲突。本发明在古谱研究领域使用自然语言处理技术和知识图谱技术，用图形显示古谱知识发展进程与结构关系，用可视化技术描述古谱知识资源及其载体，挖掘、分析、构建和绘制显示知识及它们之间的相互联系。可以展示核心结构、发展历史以及整体架构，达到多学科融合，为古谱学科研究提供有价值的参考。
搜索关键词：	图谱自然语言处理自然语言处理技术知识库可视化技术核心结构获取数据结构关系图形显示整体架构知识发展知识资源专业知识融合构建链接抽取绘制参考合并挖掘研究学科冲突创建展示进程分析
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种古谱及古文化知识图谱自然语言处理方法，其特征在于，包括步骤：创建古谱及古文化的知识图谱的模式：知识图谱G由模式图Gs、数据图Gd以及两者之间的关系R组成，表示为G＝；模式图Gs＝，其中NS表示图中的类节点，PS表示属性边，ES表示由多条边连接的两个类之间的关系；数据图Gd＝，Nd表示实例节点和字符节点，Pd表示属性边，Ed表示由多条边连接的两个节点之间的关系；每条边和边两边的节点表示主语、谓语和宾语；获取数据和抽取信息：从现有的图片及文字以及互联网上的相关图片及文字获取古谱及古文化数据；对于图片内容，采取光学字符识别OCR与对象识别技术进行辨识取样；对于文字数据，通过中文词汇表与分词器的功能将数据切割与细分到以一个词为单位，基于有向无环图和使用Viterbi算法套用HMM模型处理；抽取信息，从各种类型的数据源中提取出实体、属性以及实体间的相互关系，在此基础上形成本体化的知识表达；抽取信息首先进行实体抽取，从文字数据中自动抽取命名实体，其次提取出实体之间的关联关系，最后获得特定实体的属性信息，以获得完整的数据信息；融合知识：获取实体、关联关系以及实体的属性信息以后，为消除概念歧义、避免冗余和错误信息，实现实体链接，采用实体消歧方法用于解决同名实体产生歧义的问题；共指消解用于解决多个指称项对应于同一实体对象的问题；将现有的关系型数据库中的结构化数据融入到知识图谱中，采用资源描述框架RDF作为数据模型，将关系型数据库的数据转换成RDF的三元组数据，表示成<主语，谓语，宾语>这样的结构；从多源数据抽取数据会出现数据重复或者冲突问题，对数据源进行可信度评分，基于数据来源以及在不同来源中出现的频度，对数据项进行排序，补充至相应属性值字段中，将数据源正规化后存入知识图谱的索引数据库中；以及集成古谱及古文化知识库模式与数据：基于以上步骤，获得结构化和网络化的知识体系；建立模式过程中，当出现数据冲突，或者无法确认数据源质量时，由古谱及古文化专家人工评定，确定最终结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于赵维平;孙宁，未经赵维平;孙宁许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810269797.3/，转载请声明来源钻瓜专利网。

上一篇：中医药古籍文献分词和词性标引方法及系统
下一篇：基于随机游走和粗糙决策置信度的文本情感分类方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]古谱及古文化知识图谱自然语言处理方法在审

专利文献下载