[发明专利]一种自定义规则的文本信息抽取结果筛选方法及装置有效

专利信息
申请号: 201710961777.8 申请日: 2017-10-16
公开(公告)号: CN107729481B 公开(公告)日: 2020-10-13
发明(设计)人: 席丽娜;李德彦;晋耀红 申请(专利权)人: 鼎富智能科技有限公司
主分类号: G06F16/31 分类号: G06F16/31;G06F16/33
代理公司: 北京弘权知识产权代理事务所(普通合伙) 11363 代理人: 逯长明;许伟群
地址: 230000 安徽省合肥市*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 自定义 规则 文本 信息 抽取 结果 筛选 方法 装置
【说明书】:

本申请公开一种自定义规则的文本信息抽取结果筛选方法及装置,该方法包括获取待抽取文本信息和预设的模型树,模型树包括至少若干个节点和每个节点对应的抽取表达式集;响应于用户选择所述节点的操作,利用模型树中所选节点对应的抽取表达式集对待抽取文本信息进行信息抽取,得到抽取结果;获取模型树对应的预设节点路径;利用所述预设节点路径的终止节点,按照预设的筛选规则,对抽取结果进行筛选,得到筛选结果,预设的筛选规则包括全节点筛选规则、子节点筛选规则和当前节点筛选规则。本申请利用预设节点路径的终止节点,按照用户所选择的筛选规则,对抽取结果再次进行提取,最终得到用户所需的抽取结果,得到精确地抽取结果,提高抽取效率。

技术领域

本申请涉及文本信息挖掘领域,尤其涉及一种自定义规则的文本信息抽取结果筛选方法及装置。

背景技术

文本信息抽取技术是一种从非结构化或半结构化的文本中抽取用户需要的信息,并形成结构化的数据呈现给用户的技术。在实际生活中,文本信息抽取技术有着广泛的应用,如抽取课程类网站主页上的课程名称、内容和老师等信息,或从旅游论坛上抽取联系信息和其对应的功能类别等。

现有的文本信息抽取技术先加载需抽取文本信息对应的抽取规则,将该抽取规则与待抽取文本的内容进行匹配;然后判断待抽取文本中是否存在与该抽取规则相符的文本信息,如果存在,则抽取该文本信息;如果不存在,则判定抽取失败。

但是,现有的文本信息抽取技术中抽取规则与待抽取文本进行匹配的过程中,仅仅考虑抽取出来的文本信息与需抽取文本信息的相关性,从而导致用户必须根据抽取出来的文本信息具体在待抽取文本中的位置或上下文关系,在抽取出来的文本信息中进一步查找所需信息,给用户造成不便,并且抽取结果的精确性较低,例如,用户想抽取特定日期的“银行”这个待抽取文本信息,得到的抽取结果可能是前几个抽取出来的文本信息为其他日期的“银行”,因此,用户还必须在抽取结果中查找该特定日期下关于银行的信息。

发明内容

本申请提供了一种自定义规则的文本信息抽取结果筛选方法及装置,以解决现有的文本信息抽取技术中抽取规则与待抽取文本进行匹配的过程中,仅仅考虑抽取出来的文本信息与需抽取文本信息的相关性,从而导致用户必须根据抽取出来的文本信息具体在待抽取文本中的位置或上下文关系,在抽取出来的文本信息中进一步查找所需信息,给用户造成不便,并且抽取结果的精确性较低的问题。

第一方面,本申请提供了一种自定义规则的文本信息抽取结果筛选方法包括:

获取待抽取文本信息和预设的模型树,所述模型树包括至少若干个节点和每个节点对应的抽取表达式集,所述抽取表达式集包括至少一个抽取表达式;

响应于用户选择所述节点的操作,利用所述模型树中所选节点对应的抽取表达式集对所述待抽取文本信息进行信息抽取,得到抽取结果;

获取所述模型树对应的预设节点路径;

利用所述预设节点路径的终止节点,按照预设的筛选规则,对所述抽取结果进行筛选,得到筛选结果,所述预设的筛选规则为全节点筛选规则、子节点筛选规则或当前节点筛选规则。

第二方面,本申请还提供了一种基于文本信息抽取结果的筛选装置包括:

第一获取模块,用于获取待抽取文本信息和预设的模型树,所述模型树包括至少若干个节点和每个节点对应的抽取表达式集,所述抽取表达式集包括至少一个抽取表达式;

抽取模块,用于响应于用户选择所述节点的操作,利用所述模型树中所选节点对应的抽取表达式集对所述待抽取文本信息进行信息抽取,得到抽取结果;

第二获取模块,用于获取所述模型树对应的预设节点路径;

筛选模块,用于利用所述预设节点路径的终止节点,按照预设的筛选规则,对所述抽取结果进行筛选,得到筛选结果,所述预设的筛选规则为全节点筛选规则、子节点筛选规则或当前节点筛选规则。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎富智能科技有限公司,未经鼎富智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710961777.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top