[发明专利]一种文本信息抽取模型的构建方法及装置在审
申请号: | 201710959014.X | 申请日: | 2017-10-16 |
公开(公告)号: | CN107608948A | 公开(公告)日: | 2018-01-19 |
发明(设计)人: | 李德彦;晋耀红;席丽娜 | 申请(专利权)人: | 北京神州泰岳软件股份有限公司 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/30 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙)11363 | 代理人: | 逯长明,许伟群 |
地址: | 100089 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 信息 抽取 模型 构建 方法 装置 | ||
技术领域
本申请涉及文本处理技术领域,尤其涉及一种文本信息抽取模型的构建方法及装置。
背景技术
随着互联网信息的爆炸式增长,各种文档的内容越发丰富多彩。由于人们所需要的信息被隐藏在各种样式的内容里而愈发难以被发现,因此,人们需要借助信息抽取手段,以在相关的文本中找到所需信息。
目前信息抽取方法主要为基于HTML结构的抽取方法,其利用HTML解析器对HTML文本信息中的字符逐个扫描,解析HTML文本信息的结构层次关系,并为相同的HTML标签从零开始依次编号,最终形成HTML文本信息对应的DOM树,再对DOM树的槽点设置抽取规则表达式,根据抽取规则表达式对HTML文本信息进行抽取,得到抽取结果。其中,抽取规则表达式包括单槽点抽取规则表达式和多槽点抽取规则表达式,单槽点抽取规则表达式是生成一个孤立的信息点的抽取规则表达式,即生成一个对HTML文本信息中的局部信息点进行抽取的规则;多槽点抽取规则表达式是生成多个相互联系的信息点进行抽取的规则,即生成一个HTML文本信息中,多个结构相似的信息块中所有相关联的信息点进行抽取的规则。
但是,基于HTML结构的抽取技术依赖HTML文本信息的结构对信息进行定位,所形成的DOM树和设置的抽取规则表达式只适用于结构相同或相似的一类HTML文本信息,对于结构不同的HTML文本信息要重新解析形成DOM树,并重新设置抽取规则表达式,导致增加运算量,降低抽取效率。
发明内容
本申请提供了一种文本信息抽取模型的构建方法及装置,以解决基于HTML结构的抽取技术对于结构不同的HTML文本信息要重新解析形成DOM树,并重新设置抽取规则表达式,导致增加运算量,降低抽取效率的问题。
第一方面,本申请提供了一种文本信息抽取模型的构建方法,所述方法包括:
创建模型树;
筛选所述模型树的所有槽点的槽点信息,得到目标槽点信息;
根据每个所述目标槽点信息,创建对应的抽取规则表达式集,所述抽取规则表达式集包括至少一个抽取规则表达式,所述抽取规则表达式包括定位表达式和信息抽取表达式;
建立每个所述目标槽点信息与对应的抽取规则表达式集中每个所述抽取规则表达式的映射关系,生成文本信息抽取模型。
结合第一方面,在第一方面第一种可能实现的方式中,建立每个所述目标槽点信息与对应的抽取规则表达式集中每个所述抽取规则表达式的映射关系,生成文本信息抽取模型之后包括:将所述文本信息抽取模型转化为XML结构的文本信息抽取模型;将所述XML结构的文本信息抽取模型存储至数据库。
结合第一方面或第一方面第一种可能的实现方式,在第一方面第二种可能实现方式中,获取所述模型树的各槽点信息之前的步骤包括:获取新增的所述模型树的槽点,重新构建模型树。
结合第一方面或第一方面第一种可能的实现方式,在第一方面第三种可能实现方式中,获取所述模型树的各槽点信息之前的步骤包括:响应于用户的删除操作,去除所述模型树的对应的槽点,重新构建模型树。
结合第一方面,在第一方面第四种可能实现方式中,所述定位表达式分为前置定位表达式和后置定位表达式,所述信息抽取表达式位于所述前置定位规则和所述后置定位表达式之间。
第二方面,本申请还提供了一种文本信息抽取模型的构建装置,所述装置包括:
创建模型树模块,用于创建模型树;
筛选模块,用于筛选所述模型树的所有槽点的槽点信息,得到目标槽点信息;
创建抽取规则表达式集模块,用于根据每个所述目标槽点信息,创建对应的抽取规则表达式集,所述抽取规则表达式集包括至少一个抽取规则表达式,所述抽取规则表达式包括定位表达式和信息抽取表达式;
生成模块,用于建立每个所述目标槽点信息与对应的抽取规则表达式集中每个所述抽取规则表达式的映射关系,生成文本信息抽取模型。
结合第二方面,在第二方面第一种可能实现的方式中,所述装置还包括:转化模块,用于将所述文本信息抽取模型转化为XML结构的文本信息抽取模型;存储模块,用于将所述XML结构的文本信息抽取模型存储至数据库。
结合第二方面或第二方面第一种可能的实现方式,在第二方面第二种可能实现方式中,所述装置还包括:修改模块,用于获取新增的所述模型树的槽点,重新构建模型树。
结合第二方面或第二方面第一种可能的实现方式,在第二方面第三种可能实现方式中,所述装置还包括:修改模块,用于响应于用户的删除操作,去除所述模型树的对应的槽点,重新构建模型树。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京神州泰岳软件股份有限公司,未经北京神州泰岳软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710959014.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:纺织面料(2017‑2)
- 下一篇:一种基于语义模型的文本信息抽取方法及装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置