[发明专利]无监督分词模型训练方法及装置有效
申请号: | 201710074389.8 | 申请日: | 2017-02-10 |
公开(公告)号: | CN106708807B | 公开(公告)日: | 2019-11-15 |
发明(设计)人: | 姚佳 | 申请(专利权)人: | 广东惠禾科技发展有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 11371 北京超凡志成知识产权代理事务所(普通合伙) | 代理人: | 朱文杰<国际申请>=<国际公布>=<进入 |
地址: | 518054广东省深圳市南山区粤海街道*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种无监督分词模型训练方法及装置,应用于分词模型,所述分词模型包括一词库,所述方法包括:获取目标训练语句;确定一分词最大字数,将所述分词最大字数作为分词提取字数;从所述目标训练语句中提取文字个数为所述分词提取字数的语句片段做为目标语句片段,将该目标语句片段与所述词库中已存的语句片段进行比对;当所述词库中存在与所述目标语句片段相同的语句片段时,更新所述词库中该语句片段的出现频次,并将该目标语句片段从所述目标训练语句中剔除;重复对目标语句片段的提取及比对的步骤。如此,高效地实现了在无监督的方式下对分词模型进行训练,并且得到分析模型对歧义语句的辨析能力强。 | ||
搜索关键词: | 监督 分词 模型 训练 方法 装置 | ||
【主权项】:
1.一种无监督分词模型训练方法,应用于分词模型,其特征在于,所述分词模型包括一词库,所述词库用于储存语句片段及每个所述语句片段的出现频次;所述方法包括:/n获取目标训练语句;/n获取所述目标训练语句的字数,将所述目标训练语句的字数减1后作为分词最大字数,并将所述分词最大字数作为分词提取字数;/n从所述目标训练语句中提取文字个数为所述分词提取字数的语句片段做为目标语句片段,针对每个所述目标语句片段,将该目标语句片段与所述词库中已存的语句片段进行比对;/n当所述词库中存在与所述目标语句片段相同的语句片段时,更新所述词库中该语句片段的出现频次,并将该目标语句片段从所述目标训练语句中剔除,将剔除目标语句片段后的目标训练语句作为新的目标训练语句;/n当所述词库中不存在与所述目标语句片段相同的语句片段时,将该目标语句片段记录在所述词库中;/n在完成对当前分词提取字数的目标语句片段的比对后,将所述分词提取字数减1,并重复对目标语句片段的提取及比对的步骤,直至所述分词提取字数减至1。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东惠禾科技发展有限公司,未经广东惠禾科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710074389.8/,转载请声明来源钻瓜专利网。
- 上一篇:样本确认方法和装置及系统
- 下一篇:网页内容显示系统及方法