[发明专利]中文分词场景库更新方法和系统有效
申请号: | 201610597548.8 | 申请日: | 2016-07-26 |
公开(公告)号: | CN106202056B | 公开(公告)日: | 2019-01-04 |
发明(设计)人: | 柳艳红;郭祥;郭瑞 | 申请(专利权)人: | 北京智能管家科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京思创毕升专利事务所 11218 | 代理人: | 孙向民;廉莉莉 |
地址: | 101500 北京市密云县经济开发*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例提供一种中文分词场景库更新方法和系统,所述方法包括:在语句的正确分词结果中,选择一个分词;基于正确分词结果,构造分词的特征;针对场景库的每个主题词典,计算特征的最大熵模型得分;比较最大熵模型得分中的最大值与第一预定阈值,如果最大值大于第一预定阈值,将分词添加到最大值对应的主题词典中。本发明实施例能够带入场景信息,且具有多种更新方式。 | ||
搜索关键词: | 中文 分词 场景 更新 方法 系统 | ||
【主权项】:
1.一种中文分词场景库更新方法,所述场景库包括至少一个主题词典,其特征在于,所述中文分词场景库更新方法包括:在语句的正确分词结果中,选择一个分词;基于所述正确分词结果,构造所述分词的特征;针对所述场景库的每个主题词典,计算所述特征的最大熵模型得分;比较所述最大熵模型得分中的最大值与第一预定阈值,如果所述最大值大于所述第一预定阈值,将所述分词添加到所述最大值对应的主题词典中;通过以下方式基于所述正确分词结果构造所述分词的特征:所述正确分词结果包括L个分词,依次为z1至zL,其中第i个分词zi的特征包括:zi‑2,zi‑1,zi+1,zi+2,zizi+1,zi+1zi+2,zi‑1zi,zi‑2zi‑1,zi‑1zi+1。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智能管家科技有限公司,未经北京智能管家科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610597548.8/,转载请声明来源钻瓜专利网。