首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]PPT文本挖掘的方法、装置、计算机设备及存储介质在审

申请号：	202110731612.8	申请日：	2021-06-29
公开（公告）号：	CN113342980A	公开（公告）日：	2021-09-03
发明（设计）人：	马建	申请（专利权）人：	中国平安人寿保险股份有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/34
代理公司：	深圳国新南方知识产权代理有限公司 44374	代理人：	代文成
地址：	518000 广东省深圳市福田区益田路5033号***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	ppt 文本挖掘方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种PPT文本挖掘的方法，其特征在于，所述方法包括：

识别每页PPT中包含的文字，并根据所述文字出现的位置对所述文字进行编排；

对编排后的所述文字进行分句，得到至少一个第一句子；

将所述第一句子分别输入预先训练好的中文预训练模型，得到与每个所述第一句子相对应的第一句向量；

对数据库中存储的文章进行分句，得到多个第二句子；

将所述第二句子分别输入所述中文预训练模型，得到与每个所述第二句子相对应的第二句向量；

将与所述第一句向量最相似的所述第二句向量对应第二句子所在的文章与所述PPT进行关联；

对所述数据库中存储的各文章进行聚类，得到各个簇；

计算各所述簇包含的文章中各个词汇的分数，将分数最高的词汇作为对应簇的标签；

在所述PPT中显示与所述PPT相关联的文章以及所述相关联的文章所在簇的标签。

2.根据权利要求1所述的PPT文本挖掘的方法，其特征在于，所述对编排后的所述文字进行分句，得到至少一个第一句子的步骤进一步包括：

获取预设的滑动窗口的步长和文字长度；

以编排后的首个文字作为起始文字，将与所述滑动窗口的文字长度相同字数的文字确定为第一个所述第一句子，并根据所述步长和所述文字长度确定剩余的所述第一句子。

3.根据权利要求1所述的PPT文本挖掘的方法，其特征在于，训练所述中文预训练模型的步骤具体包括：

获取包括第一样本句子和第二样本句子的样本组，所述第二样本句子包括存储在数据库的文章中的句子，所述样本组携带有所述第一样本句子和所述第二样本句子是否相似的标记；

通过携带有所述是否相似的标记的样本组对所述中文预训练模型进行训练；

当所述中文预训练模型的损失函数收敛时，得到训练好的所述中文预训练模型。

4.根据权利要求1所述的PPT文本挖掘的方法，其特征在于，所述对数据库中存储的文章进行分句，得到多个第二句子的步骤进一步包括：

获取预设的滑动窗口的步长和文字长度；

以所述文章中的首个文字作为起始文字，将所述文章中与所述滑动窗口的文字长度相同字数的文字确定为第一个所述第二句子，并根据所述步长和所述文字长度确定所述文章中剩余的所述第二句子。

5.根据权利要求1所述的PPT文本挖掘的方法，其特征在于，判断与所述第一句向量最相似的所述第二句向量的步骤具体包括：

分别计算各所述第二句向量与所述第一句向量的余弦相似度；

将计算出的余弦相似度的值最大的第二句向量作为与所述第一句向量最相似的所述第二句向量。

6.根据权利要求1至5任一项所述的PPT文本挖掘的方法，其特征在于，通过以下公式计算各所述簇包含的文章中各个词汇的分数：

score＝tf_ij*idf_i

其中，tf_ij表示第i个词汇在第j篇文章中出现的频次，idf_i表示第i个词汇的逆文档词频，n_i，j表示所述词汇i在文章j中出现的次数，∑_kn_k，j表示所有文章k中所述词汇出现的总次数，N表示所有簇的数量，I(n，d_i)表示簇d中是否包含所述词汇i。

7.根据权利要求6所述的PPT文本挖掘的方法，其特征在于，在所述将分数最高的词汇作为对应簇的标签的步骤之后，所述方法还包括：

对各簇对应的标签中的同义词汇进行合并。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司，未经中国平安人寿保险股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110731612.8/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于三维波导的多芯光纤耦合器和制备方法
下一篇：一种公共场所智能消毒系统

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top