[发明专利]层次有序列表识别方法、装置、计算机设备和存储介质有效

专利信息
申请号: 202210156914.1 申请日: 2022-02-21
公开(公告)号: CN114218893B 公开(公告)日: 2022-05-13
发明(设计)人: 段炼;周忠诚;黄九鸣;张圣栋 申请(专利权)人: 湖南星汉数智科技有限公司
主分类号: G06F40/137 分类号: G06F40/137;G06F16/35;G06N7/00
代理公司: 暂无信息 代理人: 暂无信息
地址: 410000 湖南省长沙市高新开发区青山*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 层次 有序 列表 识别 方法 装置 计算机 设备 存储 介质
【权利要求书】:

1.一种层次有序列表识别方法,其特征在于,包括:

对文本进行字符块分类、类序数识别以及样式块识别,输出序数信息序列;

将所述序数信息序列作为观测序列,构造隐马尔可夫模型参数,所述隐马尔可夫模型参数包括观测序列、观测种类集、状态集、状态转移概率矩阵和观测概率矩阵,所述将所述序数信息序列作为观测序列,构造隐马尔可夫模型参数,包括:将所述序数信息序列作为观测序列和观测结果种类集;将所述序数信息序列中最后一个序数信息替换为预设特殊状态,得到与所述序数信息序列等长的状态集;利用所述状态集的长度确定所述状态集中各状态之间的转移概率,基于所述转移概率构建状态转移概率矩阵;根据所述状态集的长度、以及所述序数信息序列的样式信息和标准数的相似度构建观测概率矩阵;

利用所述隐马尔可夫模型参数解码所述序数信息序列,得到隐状态序列,包括:遍历所述序数信息序列,对于当前遍历的序数信息,基于约束从状态集中筛除前一个序数信息的隐状态且筛除的隐状态不是预设特殊状态,得到当前遍历的序数信息的候选状态集;利用隐马尔可夫模型参数从所述候选状态集中求解最优状态作为当前遍历的序数信息的隐状态;组合所述序数信息序列中各序数信息的隐状态,得到隐状态序列;

根据所述隐状态序列确定所述序数信息序列的层次结构,输出层次有序列表。

2.根据权利要求1所述的方法,其特征在于,所述对文本进行字符块分类、类序数识别以及样式块识别,输出序数信息序列,包括:

根据分类映射表将文本中的字符进行种类块分类并将相同种类块的连续字符合并成一个块,得到分类字符块;

根据匹配映射表和块类别对所述分类字符块进行类序数字词匹配,并将匹配成功的分类字符块转换为标准数,得到类序数块;

确定所述类序数块的头样式、尾样式和字面样式,得到样式信息;

输出包括所述标准数和所述样式信息的序数信息序列。

3.根据权利要求2所述的方法,其特征在于,所述确定所述类序数块的头样式、尾样式和字面样式,得到样式信息,包括:

匹配确定所述类序数块的字面样式;

获取所述类序数块的前序块和后序块,当所述前序块属于目标块时,将所述前序块作为所述类序数块的头样式,当所述后序块属于目标块,将所述后序块作为所述类序数块为尾样式,若存在块同时属于头样式和尾样式,则优先作为尾样式。

4.根据权利要求1所述的方法,其特征在于,所述利用所述状态集的长度确定所述状态集中各状态之间的转移概率,基于所述转移概率构建状态转移概率矩阵,包括:

将所述长度的倒数作为所述预设特殊状态到非预设特殊状态的转移概率;

将所述长度与预设第一阈值的差的倒数作为各所述非预设特殊状态之间的转移概率,其中各所述非预设特殊状态到自身的转移概率为预设第二阈值;

以所述长度为维度构建空状态转移概率矩阵,将确定的各所述转移概率作为矩阵元素加入到所述空状态转移概率矩阵中,得到状态转移概率矩阵。

5.根据权利要求1所述的方法,其特征在于,所述根据所述状态集的长度、以及所述序数信息序列的样式信息和标准数的相似度构建观测概率矩阵,包括:

计算所述序数信息序列中各序数信息之间的头样式相似度、尾样式相似度、字面样式相似度和标准数相似度;

对所述头样式相似度、尾样式相似度、字面样式相似度和标准数相似度聚合,将聚合所得到的相似度作为候选观测概率;

将所述长度的倒数作为所述预设特殊状态生成序数信息的观测概率,将预设第二阈值作为非预设特殊状态生成自身位置对应序数信息或前序位置对应序数信息的观测概率,将所述候选观测概率作为非预设特殊状态生成后序位置对应序数信息的观测概率;

将确定的各所述观测概率作为矩阵元素构建得到观测概率矩阵。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南星汉数智科技有限公司,未经湖南星汉数智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210156914.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top