[发明专利]PPT文本挖掘的方法、装置、计算机设备及存储介质在审
申请号: | 202110731612.8 | 申请日: | 2021-06-29 |
公开(公告)号: | CN113342980A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 马建 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/34 |
代理公司: | 深圳国新南方知识产权代理有限公司 44374 | 代理人: | 代文成 |
地址: | 518000 广东省深圳市福田区益田路5033号*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | ppt 文本 挖掘 方法 装置 计算机 设备 存储 介质 | ||
1.一种PPT文本挖掘的方法,其特征在于,所述方法包括:
识别每页PPT中包含的文字,并根据所述文字出现的位置对所述文字进行编排;
对编排后的所述文字进行分句,得到至少一个第一句子;
将所述第一句子分别输入预先训练好的中文预训练模型,得到与每个所述第一句子相对应的第一句向量;
对数据库中存储的文章进行分句,得到多个第二句子;
将所述第二句子分别输入所述中文预训练模型,得到与每个所述第二句子相对应的第二句向量;
将与所述第一句向量最相似的所述第二句向量对应第二句子所在的文章与所述PPT进行关联;
对所述数据库中存储的各文章进行聚类,得到各个簇;
计算各所述簇包含的文章中各个词汇的分数,将分数最高的词汇作为对应簇的标签;
在所述PPT中显示与所述PPT相关联的文章以及所述相关联的文章所在簇的标签。
2.根据权利要求1所述的PPT文本挖掘的方法,其特征在于,所述对编排后的所述文字进行分句,得到至少一个第一句子的步骤进一步包括:
获取预设的滑动窗口的步长和文字长度;
以编排后的首个文字作为起始文字,将与所述滑动窗口的文字长度相同字数的文字确定为第一个所述第一句子,并根据所述步长和所述文字长度确定剩余的所述第一句子。
3.根据权利要求1所述的PPT文本挖掘的方法,其特征在于,训练所述中文预训练模型的步骤具体包括:
获取包括第一样本句子和第二样本句子的样本组,所述第二样本句子包括存储在数据库的文章中的句子,所述样本组携带有所述第一样本句子和所述第二样本句子是否相似的标记;
通过携带有所述是否相似的标记的样本组对所述中文预训练模型进行训练;
当所述中文预训练模型的损失函数收敛时,得到训练好的所述中文预训练模型。
4.根据权利要求1所述的PPT文本挖掘的方法,其特征在于,所述对数据库中存储的文章进行分句,得到多个第二句子的步骤进一步包括:
获取预设的滑动窗口的步长和文字长度;
以所述文章中的首个文字作为起始文字,将所述文章中与所述滑动窗口的文字长度相同字数的文字确定为第一个所述第二句子,并根据所述步长和所述文字长度确定所述文章中剩余的所述第二句子。
5.根据权利要求1所述的PPT文本挖掘的方法,其特征在于,判断与所述第一句向量最相似的所述第二句向量的步骤具体包括:
分别计算各所述第二句向量与所述第一句向量的余弦相似度;
将计算出的余弦相似度的值最大的第二句向量作为与所述第一句向量最相似的所述第二句向量。
6.根据权利要求1至5任一项所述的PPT文本挖掘的方法,其特征在于,通过以下公式计算各所述簇包含的文章中各个词汇的分数:
score=tfij*idfi
其中,tfij表示第i个词汇在第j篇文章中出现的频次,idfi表示第i个词汇的逆文档词频,ni,j表示所述词汇i在文章j中出现的次数,∑knk,j表示所有文章k中所述词汇出现的总次数,N表示所有簇的数量,I(n,di)表示簇d中是否包含所述词汇i。
7.根据权利要求6所述的PPT文本挖掘的方法,其特征在于,在所述将分数最高的词汇作为对应簇的标签的步骤之后,所述方法还包括:
对各簇对应的标签中的同义词汇进行合并。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110731612.8/1.html,转载请声明来源钻瓜专利网。