[发明专利]一种生成分词训练数据的方法和服务器在审
申请号: | 201710589616.0 | 申请日: | 2017-07-19 |
公开(公告)号: | CN109284763A | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 徐光伟;李林琳;谢朋峻;马春平;郎君;司罗 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/24;G06F17/27 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉;徐焕 |
地址: | 英属开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练数据 分词 标注 歧义 字段 切分位置 文本 服务器 方案解决 分词处理 高效生成 模型训练 人力成本 申请 保证 | ||
1.一种生成分词训练数据的方法,其特征在于,所述方法包括:
通过对待处理文本进行分词处理,确定所述待处理文本中存在切分歧义的字段;
对所述存在切分歧义的字段中的每个字标注多个切分位置标识;
将标注切分位置标识后的待处理文本作为分词模型训练数据。
2.根据权利要求1所述的方法,其特征在于,所述切分位置标识包括以下至少之一:开始标识符、结束标识符、中间标识符、单字标识符。
3.根据权利要求2所述的方法,其特征在于,对所述存在切分歧义的字段中的每个字标注多个切分位置标识,包括:
对存在切分歧义的字段的第一个字标注的切分位置标识为开始标识符、或,单字标识符;
对存在切分歧义的字段的最后一个字标注的切分位置标识为结束标识符,或,单字标识符;
对存在切分歧义的字段中除第一个字和最后一个字之外的字标注的切分位置标识为开始标识符、结束标识符、中间标识符,或,单字标识符。
4.根据权利要求1所述的方法,其特征在于,在通过对待处理文本进行分词处理,确定所述待处理文本中存在切分歧义的字段之后,所述方法还包括;
对不存在切分歧义的字段中的每个字标注对应的切分位置标识。
5.根据权利要求1所述的方法,其特征在于,通过对待处理文本进行分词处理,确定所述待处理文本中存在切分歧义的字段,包括:
通过基于词库的最大正向匹配方式,对所述待处理文本进行分词处理,以确定所述待处理文本中存在切分歧义的字段。
6.根据权利要求1所述的方法,其特征在于,在对待处理文本进行分词处理之前,所述方法还包括:
确定所述待处理文本中是否存在用户输入的分隔标识;
在确定存在用户输入的分隔标识的情况下,对分隔标识前后的两个字符标注切分位置标识。
7.根据权利要求6所述的方法,其特征在于,所述分隔标识包括以下至少之一:空格、下划线、中划线、逗号、分号。
8.根据权利要求7所述的方法,其特征在于,对分隔标识前后的两个字符进行切分位置标识包括:
对分隔标识后的第一个字符标注的切分位置标识为开始标识符、或,单字标识符;
对分隔标识前的第一个字符标注的切分位标识为结束标识符,或,单字标识符。
9.根据权利要求1所述的方法,其特征在于,所述待处理文本包括:电商平台的搜索请求。
10.一种生成分词训练数据的方法,其特征在于,所述方法包括:
基于用户查询词库和产品词库中的一个或多个,对存在切分歧义的字段中的每个字标注多个切分位置标识;
将标注切分位置标识后的待处理文本作为分词模型训练数据。
11.一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现如下步骤:
通过对待处理文本进行分词处理,确定所述待处理文本中存在切分歧义的字段;
对所述存在切分歧义的字段中的每个字标注多个切分位置标识;
将标注切分位置标识后的待处理文本作为分词模型训练数据。
12.根据权利要求11所述的服务器,其特征在于,所述切分位置标识包括以下至少之一:开始标识符、结束标识符、中间标识符、单字标识符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710589616.0/1.html,转载请声明来源钻瓜专利网。