[发明专利]语句级汉字输入方法中的用户词识别方法与在线一次性学习方法及机器学习系统无效
申请号: | 201010567997.0 | 申请日: | 2010-12-01 |
公开(公告)号: | CN102004560A | 公开(公告)日: | 2011-04-06 |
发明(设计)人: | 刘秉权;王晓龙;刘峰;刘远超;林磊;孙承杰;单丽莉;刘铭 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F3/023 | 分类号: | G06F3/023 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 张宏威 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 语句级汉字输入方法中的用户词识别方法与在线一次性学习方法及机器学习系统,涉及汉字输入的机器学习技术领域。本发明解决了现有机器学习方法中存在的经常需要用户干预才能够获得最终结果的问题。用户词识别方法是采用相对位置成词能力作为评价标准来识别用户词。学习方法仅在输入法输出的最优路径与最终输出路径不一致时才启动,该方法采用基于N元文法的概率计算方法获得概率值后,采用最大后验MAP获得用户调节值CA,该调节值CA和相应的词存入用户语言模型库。机器学习系统是应用上述用户词识别方法和学习方法实现的学习系统。采用本发明技术,能减少用户输入时的干预次数,让用户更轻松地得到需要的输出结果。 | ||
搜索关键词: | 语句 汉字输入 方法 中的 用户 识别 在线 一次性 学习方法 机器 学习 系统 | ||
【主权项】:
语句级汉字输入方法中的用户词识别方法,其特征在于,它是基于位置的用户词识别方法,对于词根c,将该词根c以位置rp在词组合中出现的概率作为该词根c的成词能力IWP(c,rp): IWP ( c , rp ) = C ( Word ( c , rp ) ) C ( c ) - - - ( 1 ) 其中,C(Word(c,rp))是生成语言模型时训练用的语料中词根c以位置rp出现的词的个数,C(c)是语料中词根c出现的次数,当所述成词能力IWP(c,rp)为大于阈值δ(0<δ<1)时,对应的词作为用户词,否则,对应的词不作为用户词;对于词串S=c1,c2,…,cl(l>1),以该词串中各个词根的成词能力的几何平均值作为该词串的成词能力IWP(S): IWP ( S ) = Π i = 1 l IWP ( c i , rp ) l - - - ( 2 ) 当IWP(S)≥δ(0<δ≤1)时,那么将S作为用户词;否则S不作为用户词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010567997.0/,转载请声明来源钻瓜专利网。
- 上一篇:视频终端及多媒体2.0立体风音箱
- 下一篇:一种基于阻容分压原理的电压互感器