[发明专利]一种文本关键内容提取方法、装置及服务器在审
申请号: | 202210532353.0 | 申请日: | 2022-05-11 |
公开(公告)号: | CN114818688A | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 万源星;吴安其;叶涵 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F16/33;G06F40/44;G06K9/62 |
代理公司: | 北京棘龙知识产权代理有限公司 11740 | 代理人: | 谢静 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 关键 内容 提取 方法 装置 服务器 | ||
1.一种文本关键内容提取方法,其特征在于,
包括获取文本集;
根据所述文本集划分单元并提取单元候选关键词;
根据所述单元候选关键词出现频率获取单元关键词频率信息;
根据所述单元关键词频率信息提取文本候选关键词;
根据所述文本候选关键词出现频率获取文本关键词频率信息;
根据所述文本关键词频率信息获得文本关键词;
根据获得的所述文本关键词将文本集与同关键词文本进行对比从而确定文本关键词。
2.如权利要求1所述的一种文本关键内容提取方法,其特征在于,
所述划分单元的具体方法为将文本根据自然段落划分为若干个单元。
3.如权利要求1所述的一种文本关键内容提取方法,其特征在于,
所述提取单元候选关键词的具体方法为提取单元中出现次数多于预设次数的词语及衍生词。
4.如权利要求1所述的一种文本关键内容提取方法,其特征在于,
所述获取单元关键词频率信息的具体步骤为:
根据提取的所述单元候选关键词与主题进行比较获取主题相关信息;
根据所述单元候选关键词出现的频率获取单元频率子信息;
基于所述候选关键词的词语长度,获取所述候选关键词对应的词语长度信息;
将所述主题相关信息、所述单元频率子信息以及所述词语长度信息进行融合,得到所述候选关键词针对所述文本单元的单元关键词频率信息。
5.如权利要求1所述的一种文本关键内容提取方法,其特征在于,
所述获取文本关键词频率信息的具体步骤为:
根据提取的所述文本候选关键词与主题进行比较获取主题相关信息;
根据所述文本候选关键词出现的频率获取文本频率子信息;
基于所述候选关键词的词语长度,获取所述候选关键词对应的词语长度信息;
将所述主题相关信息、所述文本频率子信息以及所述词语长度信息进行融合,得到所述候选关键词针对所述文本文本的文本频率信息。
6.如权利要求1所述的一种文本关键内容提取装置,其特征在于,
包括存储信息架、信息存储模块和对比模块,所述存储信息架用于存储大量的文本信息,所述信息存储模块用于存储关键内容,所述对比模块用于查找文本信息中的关键内容。
7.如权利要求1所述的一种文本关键内容提取服务器,其特征在于,
包括处理器、存储器和收发器,所述处理器、存储器和收发器相互连接,所述收发器用于接收或发送数据,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,执行权利要求1的所述文本关键内容提取方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210532353.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双向式氩弧焊机
- 下一篇:一种利用植被指数估算水稻拔节期氮营养的方法
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法