[发明专利]一种文本信息提取方法、装置、电子设备及存储介质有效
申请号: | 202110643959.7 | 申请日: | 2021-06-09 |
公开(公告)号: | CN113377911B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 高明;华煌圣;彭政;张文斐;张栩华;王德辉;刘己未;宋强 | 申请(专利权)人: | 广东电网有限责任公司广州供电局 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/383;G06F40/216;G06F40/289 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 黄忠 |
地址: | 510630 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 信息 提取 方法 装置 电子设备 存储 介质 | ||
1.一种文本信息提取方法,其特征在于,包括:
分别对多个预设文本段落和多个预设问题文本进行文本预处理,得到对应的预处理文本段落和对应的预处理问题文本;
计算所述预处理文本段落的第一特征项;
计算所述预处理问题文本的第二特征项;
采用所述第一特征项和所述第二特征项,计算所述预处理文本段落与所述预处理问题文本之间的关联度;
根据所述关联度将多个所述预处理文本段落划分为若干个帕累托集合;
对所述帕累托集合进行排序,得到帕累托序列;
从所述帕累托序列中提取多个所述问题文本对应的文本信息;
其中,所述计算所述预处理文本段落的第一特征项的步骤,包括:
获取所述预处理文本段落的第一分词词汇表;所述第一分词词汇表包括多个第一词汇;
计算每个所述第一词汇的第一词频和第一逆向文件频率;
采用所述第一词频和所述第一逆向文件频率计算对应的第一词汇的第一绝对特征值;
根据预设文本段落特征项阈值和所述第一绝对特征值计算对应的第一词汇的第一相对特征值;
采用所述第一分词词汇表中的每个所述第一词汇的第一相对特征值,计算所述预处理文本段落的第一特征项;
其中,所述根据所述关联度将多个所述预处理文本段落划分为若干个帕累托集合的步骤,包括:
在所述预处理文本段落中确定未归类文本段落,并采用所述未归类文本段落构建文本集合;
依次遍历所述文本集合中的未归类文本段落,将不具有被支配关系的未归类文本段落确定为非支配个体;
将遍历得到的所有所述非支配个体添加进同一个帕累托集合中;
判断所述文本集合中是否存在未归类文本;
若否,返回在所述预处理文本段落中确定未归类文本段落,并采用所述未归类文本段落构建文本集合的步骤;
若是,输出所有帕累托集合。
2.根据权利要求1所述的方法,其特征在于,所述计算所述预处理问题文本的第二特征项的步骤,包括:
获取所述预处理问题文本的第二分词词汇表;所述第二分词词汇表包括多个第二词汇;
计算每个所述第二词汇的第二词频和第二逆向文件频率;
采用所述第二词频和所述第二逆向文件频率计算对应的第二词汇的第二绝对特征值;
根据预设问题文本特征项阈值和所述第二绝对特征值计算对应的第二词汇的第二相对特征值;
采用所述第二分词词汇表中的每个所述第二词汇的第二相对特征值,计算所述预处理问题文本的第二特征项。
3.根据权利要求1所述的方法,其特征在于,所述从所述帕累托序列中提取多个所述问题文本对应的文本信息的步骤,包括:
根据预设的文本信息数和所述帕累托序列确定目标帕累托集合和临界帕累托集合;
计算所述临界帕累托集合中各预处理文本段落的拥挤度;
对所述拥挤度进行排序,得到拥挤度序列;
根据所述目标帕累托集合、所述文本信息数和所述拥挤度序列,从所述临界帕累托集合中确定目标文本段落;
提取所述目标帕累托集合中的预处理文本段落和所述目标文本段落作为多个所述问题文本所要提取的文本信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司广州供电局,未经广东电网有限责任公司广州供电局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110643959.7/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置