[发明专利]层次有序列表识别方法、装置、计算机设备和存储介质有效
申请号: | 202210156914.1 | 申请日: | 2022-02-21 |
公开(公告)号: | CN114218893B | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 段炼;周忠诚;黄九鸣;张圣栋 | 申请(专利权)人: | 湖南星汉数智科技有限公司 |
主分类号: | G06F40/137 | 分类号: | G06F40/137;G06F16/35;G06N7/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410000 湖南省长沙市高新开发区青山*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 层次 有序 列表 识别 方法 装置 计算机 设备 存储 介质 | ||
本发明涉及计算机文本处理技术领域,提供了一种层次有序列表识别方法、装置、计算机设备和存储介质,所述方法包括:对文本进行字符块分类、类序数识别以及样式块识别,输出序数信息序列;将所述序数信息序列作为观测序列,构造隐马尔可夫模型参数;利用所述隐马尔可夫模型参数解码所述序数信息序列,得到隐状态序列;根据所述隐状态序列确定所述序数信息序列的层次结构,输出层次有序列表。采用本方法能够提高层次有序列表识别的准确率。
技术领域
本发明属于文本处理技术领域,尤其涉及一种层次有序列表识别方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术的发展,当今电子信息系统中存在着海量丰富的文本数据,该些文本数据蕴含了重要的信息价值。为了获取该些信息价值,现如今通常会对文本数据进行信息挖掘。由于文本表述中存在大量的有序列表,比如“一、二、三、”章节,且章节内也可能嵌套有序小章节而形成有层次的层次有序列表。因此,文本信息挖掘系统一般由分层的语义解析组件构成,从而让计算机理解有序列表来提升文本信息挖掘能力。传统对有序列表进行识别主要有采用词典映射的方法和基于词性的方法。其中,词典映射主要是根据预先定义的词典识别出表达序数的字,然后将其转换为阿拉伯数字进行比较后排成有序列表。基于词性主要是通过自然语言处理工具对文本分词,同时标注出每个词的词性,之后找出词性为数词的词语转换为可比较阿拉伯数字后组织为有序列表。
然而,基于词典匹配的方法由于仅利用局部特征,所以会导致不能较好地识别和组织有局部歧义或序数有间断的层析有序列,比如字符“i”可能是指英文字母序第9个,也可能是希腊字母序的第一个,从而降低了层次序列识别的准确率。而基于词性的方法因分词和词性标注工具存在错误传播也会使得序数识别和层次组织错误,导致层次序列识别的准确率降低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高准确率的层次有序列表识别方法、装置、计算机设备和存储介质。
本发明提供一种层次有序列表识别方法,包括:
对文本进行字符块分类、类序数识别以及样式块识别,输出序数信息序列;
将所述序数信息序列作为观测序列,构造隐马尔可夫模型参数;
利用所述隐马尔可夫模型参数解码所述序数信息序列,得到隐状态序列;
根据所述隐状态序列确定所述序数信息序列的层次结构,输出层次有序列表。
在其中一个实施例中,所述对文本进行字符块分类、类序数识别以及样式块识别,输出序数信息序列,包括:
根据分类映射表将文本中的字符进行种类块分类并将相同种类块的连续字符合并成一个块,得到分类字符块;
根据匹配映射表和块类别对所述分类字符块进行类序数字词匹配,并将匹配成功的分类字符块转换为标准数,得到类序数块;
确定所述类序数块的头样式、尾样式和字面样式,得到样式信息;
输出包括所述标准数和所述样式信息的序数信息序列。
在其中一个实施例中,所述确定所述类序数块的头样式、尾样式和字面样式,得到样式信息,包括:
匹配确定所述类序数块的字面样式;
获取所述类序数块的前序块和后序块,当所述前序块属于目标块时,将所述前序块作为所述类序数块的头样式,当所述后序块属于目标块,将所述后序块作为所述类序数块为尾样式,若存在块同时属于头样式和尾样式,则优先作为尾样式。
在其中一个实施例中,所述隐马尔可夫模型参数包括观测序列、观测种类集、状态集、状态转移概率矩阵和观测概率矩阵,所述将所述序数信息序列作为观测序列,构造隐马尔可夫模型参数,包括:
将所述序数信息序列作为观测序列和观测结果种类集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南星汉数智科技有限公司,未经湖南星汉数智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210156914.1/2.html,转载请声明来源钻瓜专利网。