[发明专利]语句级汉字输入方法中的用户词识别方法与在线一次性学习方法及机器学习系统无效

专利信息
申请号: 201010567997.0 申请日: 2010-12-01
公开(公告)号: CN102004560A 公开(公告)日: 2011-04-06
发明(设计)人: 刘秉权;王晓龙;刘峰;刘远超;林磊;孙承杰;单丽莉;刘铭 申请(专利权)人: 哈尔滨工业大学
主分类号: G06F3/023 分类号: G06F3/023
代理公司: 哈尔滨市松花江专利商标事务所 23109 代理人: 张宏威
地址: 150001 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要: 语句级汉字输入方法中的用户词识别方法与在线一次性学习方法及机器学习系统,涉及汉字输入的机器学习技术领域。本发明解决了现有机器学习方法中存在的经常需要用户干预才能够获得最终结果的问题。用户词识别方法是采用相对位置成词能力作为评价标准来识别用户词。学习方法仅在输入法输出的最优路径与最终输出路径不一致时才启动,该方法采用基于N元文法的概率计算方法获得概率值后,采用最大后验MAP获得用户调节值CA,该调节值CA和相应的词存入用户语言模型库。机器学习系统是应用上述用户词识别方法和学习方法实现的学习系统。采用本发明技术,能减少用户输入时的干预次数,让用户更轻松地得到需要的输出结果。
搜索关键词: 语句 汉字输入 方法 中的 用户 识别 在线 一次性 学习方法 机器 学习 系统
【主权项】:
语句级汉字输入方法中的用户词识别方法,其特征在于,它是基于位置的用户词识别方法,对于词根c,将该词根c以位置rp在词组合中出现的概率作为该词根c的成词能力IWP(c,rp): IWP ( c , rp ) = C ( Word ( c , rp ) ) C ( c ) - - - ( 1 ) 其中,C(Word(c,rp))是生成语言模型时训练用的语料中词根c以位置rp出现的词的个数,C(c)是语料中词根c出现的次数,当所述成词能力IWP(c,rp)为大于阈值δ(0<δ<1)时,对应的词作为用户词,否则,对应的词不作为用户词;对于词串S=c1,c2,…,cl(l>1),以该词串中各个词根的成词能力的几何平均值作为该词串的成词能力IWP(S): IWP ( S ) = Π i = 1 l IWP ( c i , rp ) l - - - ( 2 ) 当IWP(S)≥δ(0<δ≤1)时,那么将S作为用户词;否则S不作为用户词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201010567997.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top