[发明专利]PPT文本挖掘的方法、装置、计算机设备及存储介质在审

申请号：	202110731612.8	申请日：	2021-06-29
公开（公告）号：	CN113342980A	公开（公告）日：	2021-09-03
发明（设计）人：	马建	申请（专利权）人：	中国平安人寿保险股份有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/34
代理公司：	深圳国新南方知识产权代理有限公司 44374	代理人：	代文成
地址：	518000 广东省深圳市福田区益田路5033号***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	ppt 文本挖掘方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种PPT文本挖掘的方法，应用于人工智能技术领域，用于解决通过目前的PPT展示方法无法冷启动式地对PPT展示的内容进行挖掘以拓宽用户的知识视角的技术问题。本发明提供的方法包括：识别、编排每页PPT中包含的文字，对编排后的文字进行分句得到第一句子；将该第一句子转换为第一句向量；对数据库中存储的文章进行分句，得到多个第二句子；将该第二句子转换为第二句向量；将与该第一句向量最相似的第二句向量对应第二句子所在的文章与该PPT进行关联；对数据库中存储的各文章进行聚类，得到各个簇；计算各簇包含的文章中各个词汇的分数，将分数最高的词汇作为对应簇的标签；在PPT中显示与该PPT相关联的文章以及相关联的文章所在簇的标签。

技术领域

本发明涉及人工智能技术领域，尤其涉及一种PPT文本挖掘的方法、装置、计算机设备及存储介质。

背景技术

文本挖掘是一个从非结构化的文本信息中获取用户感兴趣的文本的过程，主要用途是从原本未经处理的文本中提取出未知的知识，提取的数据主要来源如新闻文档、研究论文、书籍、数字图书馆、电子邮件和Web页面等等。由于电子形式的文本信息飞速增长，文本挖掘已经成为信息领域的研究热点。

目前在文本挖掘的使用场景中，一般是根据用户在文本框中输入的关键字智能分析用户的意图或者感兴趣的内容，然后在数据库中匹配相关的文档进行推荐和显示，这种问题挖掘和问题推荐的方法需要用户输入对应的问题关键字，根据用户输入的内容进行匹配。

但是在有些场景，例如在播放PPT幻灯片的过程中，由于PPT展示出来的一般都是用户预先编排好的全部内容，通过现有手段无法直接确定PPT中存在的用户可能关心的问题，也就无法推荐对应相关的解决方案。现亟待提出一种能够对PPT中展现的内容进行冷启动式的问题挖掘，并针对挖掘出的问题推荐解决对应问题的文章。

发明内容

本发明实施例提供了一种PPT文本挖掘的方法、装置、计算机设备及存储介质，以解决通过目前的PPT展示方法无法冷启动式地对PPT展示的内容进行挖掘以拓宽用户的知识视角的技术问题。

一种PPT文本挖掘的方法，该方法包括：

识别每页PPT中包含的文字，并根据该文字出现的位置对该文字进行编排；

对编排后的该文字进行分句，得到至少一个第一句子；

将该第一句子分别输入预先训练好的中文预训练模型，得到与每个该第一句子相对应的第一句向量；