[发明专利]一种中文文本智能分级改编方法及装置有效
| 申请号: | 202211524750.X | 申请日: | 2022-12-01 |
| 公开(公告)号: | CN115600575B | 公开(公告)日: | 2023-03-14 |
| 发明(设计)人: | 殷晓君 | 申请(专利权)人: | 北京语言大学 |
| 主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/253;G06F40/289 |
| 代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
| 地址: | 100083*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 中文 文本 智能 分级 改编 方法 装置 | ||
1.一种中文文本智能分级改编方法,其特征在于,所述方法包括:
S1、获取文本数据,对所述文本数据进行预处理,基于预处理后的文本数据构建分级文本库;
S2、获取原始句子;
S3、获取目标等级,根据目标等级,在所述分级文本库中确定所述原始句子对应的参考句子;
S4、基于训练完毕的Bert模型、原始句子以及参考句子,确定所述原始句子和参考句子之间的词相似度矩阵;
S5、根据所述词相似度矩阵,确定所述原始句子与参考句子的词对应关系列表;
S6、根据所述原始句子与参考句子的词对应关系列表、所述原始句子以及所述参考句子,生成目标句子;
其中,所述S6中的根据所述原始句子与参考句子的词对应关系列表、所述原始句子与所述参考句子,生成目标句子,包括:
S61、设定j=1;
S62、判断j是否大于n,如果j大于n,则执行S66;如果j小于或等于n,则执行S63;其中,n表示所述原始句子的词数量;
S63、根据所述原始句子与参考句子的词对应关系列表,判断第j个位置处原始句子的词和参考句子的词是否相同;
S64、如果第j个位置处原始句子的词和参考句子的词相同,则将原始句子的词确定为目标句子第j位置处的目标词;
S65、如果第j个位置处原始句子的词和参考句子的词不相同,则判断所述原始句子的词的等级是否小于或等于目标等级,如果小于或等于目标等级,则将所述原始句子的词确定为目标句子第j位置处的目标词,如果大于目标等级,则将参考句子的词确定为目标句子第j位置处的目标词;j=j+1;转去执行S62;
S66、根据目标句子所有位置处的目标词,生成目标句子。
2.根据权利要求1所述的方法,其特征在于,所述S1中的对所述文本数据进行预处理,基于预处理后的文本数据构建分级文本库,包括:
S11、对所述文本数据进行分句处理,得到多个待归类句子;
S12、对多个待归类句子分别进行分级处理;
S13、将分级处理后的待归类句子按照等级存入到分级文本库的分级子库中。
3.根据权利要求2所述的方法,其特征在于,所述S12中的对多个待归类句子分别进行分级处理,包括:
S121、根据预设的分级标准,分别确定多个待归类句子中的每个待归类句子的每个音节的等级、每个字的等级、每个词的等级以及语法等级;
S122、将所述每个待归类句子的每个音节的等级、每个字的等级、每个词的等级以及语法等级中的最高等级,确定为待归类句子的等级。
4.根据权利要求1所述的方法,其特征在于,所述S3中的获取目标等级,根据目标等级,在所述分级文本库中确定所述原始句子对应的参考句子,包括:
S31、获取目标等级,根据所述目标等级,在所述分级文本库中确定所述目标等级对应的目标分级子库,将所述目标分级子库中与所述原始句子的词数相同的多个句子确定为参考句子候选集合;
S32、将所述原始句子输入到训练完毕的Bert模型中,获取所述原始句子的每个词对应的词向量,对所有词对应的词向量进行平均池化操作,得到所述原始句子的向量表征;
S33、将所述参考句子候选集合中的每个候选句子输入到训练完毕的Bert模型中,获取所述每个候选句子的每个词对应的词向量,对所述每个候选句子的所有词对应的词向量进行平均池化操作,得到所述每个候选句子的向量表征;
S34、根据所述原始句子的向量表征以及所述每个候选句子的向量表征,确定所述原始句子与所述每个候选句子的相似度,将相似度最大的候选句子确定为所述原始句子的参考句子。
5.根据权利要求1所述的方法,其特征在于,所述S4中的基于训练完毕的Bert模型、原始句子以及参考句子,确定所述原始句子和参考句子之间的词相似度矩阵,包括:
S41、将所述原始句子输入训练完毕的Bert模型中,得到所述原始句子的每个词对应的词向量;
S42、将所述参考句子输入训练完毕的Bert模型中,得到所述参考句子的每个词对应的词向量;
S43、计算原始句子的每个词对应的词向量与所述参考句子的每个词对应的词向量之间的相似度,得到所述原始句子和参考句子之间的词相似度矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京语言大学,未经北京语言大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211524750.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:利用硅热还原从磷酸盐中制备黄磷的方法及应用
- 下一篇:一种微电机端盖冲压装置





