[发明专利]一种基于规则的通用文本信息抽取和信息生成方法有效
申请号: | 201910153119.5 | 申请日: | 2019-02-28 |
公开(公告)号: | CN110059176B | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 骆斌;卢坚;伏晓 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/36;G06F40/186 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 叶涓涓 |
地址: | 210000*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于规则的通用文本信息抽取和信息生成方法,包括:初始化信息字典上下文、规则词包、规则引擎与模板引擎;对文本进行信息标注;定义信息抽取算法和编写规则脚本代码;生成规则依赖有向图;执行文本抽取规则并根据抽取准确度进行微调;定义信息生成元模板;自定义模板规则选取与文本生成。本发明实现了抽取规则模块化,提高了抽取规则的共享可能性,能够对复杂文本信息的结构进行很好的分析挖掘,极大地提高了抽取信息与外部信息生成文本的效率,特别适用于法律文书等需要大量信息文本进行信息抽取和生成的领域。本发明方法能够显著提高文本抽取效率和准确度、优化文本抽取复杂度以及提高信息文本生成效率。 | ||
搜索关键词: | 一种 基于 规则 通用 文本 信息 抽取 生成 方法 | ||
【主权项】:
1.一种基于规则的通用文本信息抽取和文本生成方法,其特征在于,包括如下步骤:步骤一:初始化信息字典上下文、规则词包、规则引擎与模板引擎初始化信息字典作为信息抽取的上下文,用于对信息文本进行动态、拓展式的信息抽取;加载配置信息中定义的引擎类别,进行规则语法解析器、语法依赖分析器以及规则执行器的加载工作;初始化依附于规则引擎以及支持第三方数据源的数据存取引擎;通过加载模板引擎配置信息,对已经定义的预编译模板指令和已经编写的信息生成模板进行加载,以便完成整个模板引擎的加载工作;步骤二:对文本信息进行信息标注对文本信息抽取进行建模分析,文本信息抽取模型分为单值信息抽取与多值信息抽取;单值信息抽取表示从一段文本中抽取出单个区域内容的文本;而多值信息抽取表示从一段文本中抽取指定多个区域的信息;文本信息标注模型包含:文本信息标记的范围,标注信息特征,以及信息标注标识符,对于每个信息标注,可以从一段信息文本中找到期望的抽取文本;步骤三:定义信息抽取算法和编写规则脚本代码对抽取规则进行分析建模,抽取规则模型包括:标量规则、共享规则、无依赖计算规则、依赖计算规则以及变量上下文规则;在用户进行信息抽取时,若当前抽取信息项无依赖其他规则也无明显的文本上下文依赖,能够使用标量规则进行信息抽取;若当前抽取信息项的抽取方式与其他类似结构文本相似,能够通过直接引用或者拷贝的方式进行抽取规则的共享;若当前抽取信息项无依赖当前规则上下文的其他规则,能够通过无依赖计算规则对信息进行抽取;若当前抽取信息项对当前规则上下文有其他规则的依赖,能够通过依赖计算规则进行计算;若当前抽取信息项有很深的结构依赖,而其中间状态的信息不需要显示的抽取,则能够通过变量上下文规则进行信息抽取同时不影响当前的规则上下文;步骤四:生成规则依赖有向图通过对用户编写的抽取规则进行语法解析,导出该规则的依赖项和其导出项,生成规则依赖有向图;步骤五:执行文本抽取规则并根据抽取准确度进行微调将本文抽取规则放入规则引擎中进行执行,能够生成结构良好的抽取文本,将该抽取信息与刚开始的文本标注信息进行内容对比,并生成抽取信息准确度;步骤六:定义信息生成元模板用户能够针对场景化需求,定义信息生成元模板;信息生成元模板包含基本的信息文本格式以及若干规则填充区域;为了提供通用的信息生成方式,通过提供自定义信息规则拓展的方式,用户能够将第三方数据源的信息以符合规则格式的方式进行导入;步骤七:自定义模板规则选取与文本生成对于同一种信息生成元模板,用户能够通过对若干规则填充区域进行不同信息规则的选取,生成适应不同子场景的文本;用户能够选择格式进行信息文本生成。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910153119.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种服务信息处理的方法及装置
- 下一篇:一种基于用户画像的活动推荐方法及装置