[发明专利]一种生成分词训练数据的方法和服务器在审
申请号: | 201710589616.0 | 申请日: | 2017-07-19 |
公开(公告)号: | CN109284763A | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 徐光伟;李林琳;谢朋峻;马春平;郎君;司罗 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/24;G06F17/27 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉;徐焕 |
地址: | 英属开曼*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练数据 分词 标注 歧义 字段 切分位置 文本 服务器 方案解决 分词处理 高效生成 模型训练 人力成本 申请 保证 | ||
本申请提供了一种生成分词训练数据的方法和服务器,其中,该方法包括:通过对待处理文本进行分词处理,确定待处理文本中存在切分歧义的字段;对所述存在切分歧义的字段中的每个字标注多个切分位置标识;将标注切分位置标识后的待处理文本作为分词模型训练数据。通过本申请的方案解决了现有的对于存在切分歧义的字段也采用完全标注的方式而导致的需要人工进行标注的问题,因此,可以有效节省人力成本,达到了在保证训练数据有效性的情况下,高效生成分词训练数据的效果。
技术领域
本申请属于计算机技术领域,尤其涉及一种生成分词训练数据的方法和服务器。
背景技术
目前,为了实现分词,一般是采用训练得到分词模型的方式对待分词文本进行分词。为了实现对分词模型的训练,需要大量的分词训练数据。作为分词训练数据,就需要预先标注好正确的切分结果,例如:如果一个文本:太空一号篮球鞋,作为训练数据,那么就需要标注太空一号篮球鞋的正确切分方式,那么这个文本才能作为有效的训练数据。
对于一些比较简单的文本,机器有时候是可以自动进行标注的,但是有时有些文本会存在歧义,例如:女生日礼物,在切分的时候,女是和生切分在一起形成女生,还是生和日礼物切分在一起,形成生日礼物,这个时候通过机器就很难进行标注。因此,对于这种存在切分歧义的文本,就只能采用人工标注的方式进行。
在数据量特别大的时候,人工标注的成本很高。针对该问题,目前尚未提出有效的解决方案。
发明内容
本申请目的在于提供一种生成分词训练数据的方法和服务器,可以实现在保证训练数据有效性的情况下,无需人工标注即可生成分词训练数据的目的。
本申请提供一种生成分词训练数据的方法和服务器是这样实现的:
一种生成分词训练数据的方法,所述方法包括:
通过对待处理文本进行分词处理,确定所述待处理文本中存在切分歧义的字段;
对所述存在切分歧义的字段中的每个字标注多个切分位置标识;
将标注切分位置标识后的待处理文本作为分词模型训练数据。
一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现如下步骤:
通过对待处理文本进行分词处理,确定所述待处理文本中存在切分歧义的字段;
对所述存在切分歧义的字段中的每个字标注多个切分位置标识;
将标注切分位置标识后的待处理文本作为分词模型训练数据。
一种生成分词训练数据的方法,所述方法包括:
基于用户查询词库和产品词库中的一个或多个,对所述存在切分歧义的字段中的每个字标注多个切分位置标识;
将标注切分位置标识后的待处理文本作为分词模型训练数据。
一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现上述方法的步骤。
本申请提供的生成分词训练数据的方法和服务器,在获取待处理文本之后,如果该文本中有存在切分歧义的字段,则对该字段中的字符标注多个切分位置标识,而不是采用完全标注的标注,从而解决了现有的对于存在切分歧义的字段也采用完全标注的方式而导致的需要人工进行标注的问题,因此,可以有效节省人力成本,达到了在保证训练数据有效性的情况下,高效生成分词训练数据的效果。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710589616.0/2.html,转载请声明来源钻瓜专利网。