[发明专利]段落的划分方法及装置有效
申请号: | 201711082718.X | 申请日: | 2017-11-07 |
公开(公告)号: | CN109753647B | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 姜珂 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 王伟锋;刘铁生 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 段落 划分 方法 装置 | ||
本发明公开了一种段落的划分方法及装置,涉及信息处理技术领域,主要目的在于提高段落划分的正确性、健壮性及鲁棒性,本发明的主要技术方案包括:对待划分文章进行向量化处理得到段落向量,所述段落向量为使用一个数组表示一个自然段;根据预先学习的段落分组模型,确定每个段落向量属于所述段落分组模型中每个段落分组的概率,其中,所述段落分组中至少包含一个自然段;将每个段落向量以及对应的概率输入隐马尔科夫模型,以便根据每个段落向量以及对应的概率确定隐含参数;利用预设解码算法对所述隐含参数进行解码,得到每个段落属于段落分组的最大概率,根据所述最大概率对所述待划分文章执行段落划分。
技术领域
本发明涉及信息处理技术领域,特别是涉及一种段落的划分方法及装置。
背景技术
随着信息处理技术的发展,人们对信息的需求越来越高,例如,对裁判文书中段落的划分。
目前,对裁判文书常用的段落划分方法为通过枚举方式,即枚举每个段落中可能出现的预设关键字,当裁判文书中的自然段落中匹配到预设关键字后,将该自然段划分到某个段落中,实现段落的划分。发明人在实现上述发明过程中,发现现有技术中通过枚举的方式执行段落划分时,会存在枚举不全面的问题,导致段落划分的准确率较低,此外,当裁判文书或者预设关键字出错时,不会智能对错别字进行识别,使划分段落的健壮性、鲁棒性降低。
发明内容
有鉴于此,本发明提供的一种段落的划分方法及装置,主要目的在于提高段落划分的正确性、健壮性及鲁棒性。
为了解决上述问题,本发明主要提供如下技术方案:
第一方面,本发明提供了一种段落的划分方法,包括:
对待划分文章进行向量化处理得到段落向量,所述段落向量为使用一个数组表示一个自然段;
根据预先学习的段落分组模型,确定每个段落向量属于所述段落分组模型中每个段落分组的概率,其中,所述段落分组中至少包含一个自然段;
将每个段落向量以及对应的概率输入隐马尔科夫模型,以便根据每个段落向量以及对应的概率确定隐含参数;
利用预设解码算法对所述隐含参数进行解码,得到每个段落属于段落分组的最大概率,根据所述最大概率对所述待划分文章执行段落划分。
可选的,所述方法还包括:
获取样本文章中进行段落分组的标记,确定每个段落分组中的信息要素;
对所述信息要素进行训练学习,得到训练函数,形成段落分组模型。
可选的,对待划分文章进行向量化处理得到段落向量包括:
将所述待划分文章中每个自然段的字符使用数字表示,每个字符对应一个数字;
根据信息增益对所述数字进行计算得到预设数量的维度;
按照维度的信息熵大小进行排名,获取排名前N的维度,得到所述段落向量;其中,所述排名前N的维度作为段落向量的信息要素,记录于所述数组中。
可选的,根据预先学习的段落分组模型,确定每个段落向量属于所述段落分组模型中每个段落分组的概率包括:
获取所述段落分组模型中的训练函数;其中,所述段落分组模型中的每个段落分组对应一个训练函数;
利用逻辑回归算法或者支持向量机,对所述段落向量进行回归;
计算每个段落向量属于所述每个段落分组对应的训练函数的概率。
可选的,将每个段落向量以及对应的概率输入隐马尔科夫模型,以便根据每个段落向量以及对应的概率确定隐含参数包括:
对隐马尔科夫模型中的初始状态概率矩阵进行初始化;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711082718.X/2.html,转载请声明来源钻瓜专利网。