[发明专利]语料的处理方法及装置、电子设备、存储介质在审
| 申请号: | 202110786655.6 | 申请日: | 2021-07-12 |
| 公开(公告)号: | CN113723073A | 公开(公告)日: | 2021-11-30 |
| 发明(设计)人: | 陈思思 | 申请(专利权)人: | 大箴(杭州)科技有限公司 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/295;G06F40/30;G06F16/33 |
| 代理公司: | 北京中强智尚知识产权代理有限公司 11448 | 代理人: | 韩明 |
| 地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语料 处理 方法 装置 电子设备 存储 介质 | ||
1.一种语料的处理方法,其特征在于,包括:
将目标语料拆分成多个子语料;
选定所述多个子语料中任一与时间有关的子语料为目标子语料,提取所述目标子语料中的时间信息;
关联所述时间信息和所述目标子语料中包含的多个实体关键词,得到关联语料;其中,所述关联语料用于表征所述目标子语料中的时间信息和多个实体关键词之间的对应关系。
2.根据权利要求1所述的方法,其特征在于,在将目标语料拆分成多个子语料之后,所述方法还包括:
根据时间关键词库从所述多个子语料中筛选出与时间有关的第一子语料,其中,所述时间关键词库包括用于表达时间的时间关键词以及时间正则表达式;
检测与所述第一子语料相邻的第二子语料中是否含有与时间有关的语料;
若检测到所述第二子语料中没有与时间有关的语料,则将所述第一子语料和所述第二子语料进行组合,得到第三子语料。
3.根据权利要求2所述的方法,其特征在于,在得到所述第三子语料之后,所述方法还包括:
更新目标列表,以使所述第三子语料的存储位置替换所述第一子语料和第二子语料的存储位置;其中,所述目标列表为在将所述目标语料拆分成所述多个子语料之后,通过基于所述多个子语料的上下文顺序存储所述多个子语料生成的。
4.根据权利要求1所述的方法,其特征在于,所述提取所述目标子语料中的时间信息包括:
对所述目标子语料进行清洗,得到第四子语料;
基于时间正则库从所述第四子语料中提取时间关键词;
对所述时间关键词的时间格式进行标准化,得到所述目标子语料中的时间信息。
5.根据权利要求4所述的方法,其特征在于,所述目标语料包括文本语料,所述对所述目标子语料进行清洗包括以下至少之一:
删除所述目标子语料中的空格或语气助词;
修改所述目标子语料中的汉字数字为阿拉伯数字;
将所述目标子语料中汉字格式的时间关键词转换成时间格式的时间关键词。
6.根据权利要求1所述的方法,其特征在于,所述关联所述时间信息和所述目标子语料中包含的多个实体关键词,得到关联语料,包括:
利用命名实体识别模型提取所述目标子语料中的多个实体关键词;
按照预先设定的语料组合规则将所述目标子语料中的所述时间信息与所述多个实体关键词进行组合,得到所述关联语料。
7.根据权利要求1所述的方法,其特征在于,所述目标语料包括文本语料,所述将目标语料拆分成多个子语料包括:
利用字符串切分方法将所述文本语料拆分成多个文本子语料。
8.一种语料的处理装置,其特征在于,包括:
拆分模块,用于将目标语料拆分成多个子语料;
提取模块,用于选定所述多个子语料中任一与时间有关的子语料为目标子语料,提取所述目标子语料中的时间信息;
关联模块,用于关联所述时间信息和所述目标子语料中包含的多个实体关键词,得到关联语料;其中,所述关联语料用于表征所述目标子语料中的时间信息和多个实体关键词之间的对应关系。
9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大箴(杭州)科技有限公司,未经大箴(杭州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110786655.6/1.html,转载请声明来源钻瓜专利网。





