[发明专利]一种语料预处理方法、语料预标注方法及电子设备有效
申请号: | 201811036054.8 | 申请日: | 2018-09-06 |
公开(公告)号: | CN109446300B | 公开(公告)日: | 2021-04-20 |
发明(设计)人: | 林志伟;肖龙源;蔡振华;李稀敏;刘晓葳;谭玉坤 | 申请(专利权)人: | 厦门快商通信息技术有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/35;G06F40/295 |
代理公司: | 厦门仕诚联合知识产权代理事务所(普通合伙) 35227 | 代理人: | 乐珠秀 |
地址: | 361007 福建省厦门*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语料 预处理 方法 标注 电子设备 | ||
1.一种语料预处理的方法,其特征在于,所述方法包含步骤:
分别对各语料进行向量化处理,获得所述语料的文本向量;
基于所述语料的文本向量进行聚类,从所述语料中确定出专用语料、通用语料和长尾语料;
对所述专用语料进行命名实体识别,确定出所述专用语料中包含的命名实体;
基于目标命名实体对所述专用语料进行分类;
分别对所述通用语料和所述长尾语料进行聚类;
分别从各所述分类的所述专用语料中抽取第一预设数量的所述专用语料,分别从各分类的所述通用语料和所述长尾语料中抽取第二预设数量的所述通用语料和所述长尾语料,作为所述预处理结果。
2.如权利要求1所述的方法,其特征在于,所述对所述专用语料进行命名实体识别,确定出所述专用语料中包含的命名实体,具体包含:
基于预设命名实体识别模型对所述专用语料进行命名实体识别。
3.如权利要求1所述的方法,其特征在于,所述专用语料为包含目标意图的所述语料。
4.如权利要求1所述的方法,其特征在于,在基于所述目标命名实体对所述专用语料进行分类之后,为各所述分类的所述专用语料进行标签设置,其中,所述标签内容包含所述目标命名实体。
5.如权利要求1所述的方法,其特征在于,在分别对所述通用语料和所述长尾语料进行聚类之后,为各分类的所述通用语料和所述长尾语料设置标签。
6.一种语料预标注方法,其特征在于,所述方法包含步骤:
收集原始语料;
基于权利要求1至5中任一项所述的语料预处理方法,对所述原始语料进行预处理,获得所述预处理结果;
基于所述预处理结果进行预标注。
7.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至5中任一所述的语料预处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门快商通信息技术有限公司,未经厦门快商通信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811036054.8/1.html,转载请声明来源钻瓜专利网。