[发明专利]语句级汉字输入方法中的用户词识别方法与在线一次性学习方法及机器学习系统无效

申请号：	201010567997.0	申请日：	2010-12-01
公开（公告）号：	CN102004560A	公开（公告）日：	2011-04-06
发明（设计）人：	刘秉权;王晓龙;刘峰;刘远超;林磊;孙承杰;单丽莉;刘铭	申请（专利权）人：	哈尔滨工业大学
主分类号：	G06F3/023	分类号：	G06F3/023
代理公司：	哈尔滨市松花江专利商标事务所 23109	代理人：	张宏威
地址：	150001 黑龙***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：	语句级汉字输入方法中的用户词识别方法与在线一次性学习方法及机器学习系统，涉及汉字输入的机器学习技术领域。本发明解决了现有机器学习方法中存在的经常需要用户干预才能够获得最终结果的问题。用户词识别方法是采用相对位置成词能力作为评价标准来识别用户词。学习方法仅在输入法输出的最优路径与最终输出路径不一致时才启动，该方法采用基于N元文法的概率计算方法获得概率值后，采用最大后验MAP获得用户调节值CA，该调节值CA和相应的词存入用户语言模型库。机器学习系统是应用上述用户词识别方法和学习方法实现的学习系统。采用本发明技术，能减少用户输入时的干预次数，让用户更轻松地得到需要的输出结果。
搜索关键词：	语句汉字输入方法中的用户识别在线一次性学习方法机器学习系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

语句级汉字输入方法中的用户词识别方法，其特征在于，它是基于位置的用户词识别方法，对于词根c，将该词根c以位置rp在词组合中出现的概率作为该词根c的成词能力IWP(c，rp)： IWP ( c , rp ) = C ( Word ( c , rp ) ) C ( c ) - - - ( 1 ) 其中，C(Word(c，rp))是生成语言模型时训练用的语料中词根c以位置rp出现的词的个数，C(c)是语料中词根c出现的次数，当所述成词能力IWP(c，rp)为大于阈值δ(0＜δ＜1)时，对应的词作为用户词，否则，对应的词不作为用户词；对于词串S＝c1，c2，…，cl(l＞1)，以该词串中各个词根的成词能力的几何平均值作为该词串的成词能力IWP(S)： IWP ( S ) = Π i = 1 l IWP ( c i , rp ) l - - - ( 2 ) 当IWP(S)≥δ(0＜δ≤1)时，那么将S作为用户词；否则S不作为用户词。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学，未经哈尔滨工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201010567997.0/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F3-00 用于将所要处理的数据转变成为计算机能够处理的形式的输入装置；用于将数据从处理机传送到输出设备的输出装置，例如，接口装置
G06F3-01 .用于用户和计算机之间交互的输入装置或输入和输出组合装置
G06F3-05 .在规定的时间间隔上，利用模拟量取样的数字输入
G06F3-06 .来自记录载体的数字输入，或者到记录载体上去的数字输出
G06F3-09 .到打字机上去的数字输出
G06F3-12 .到打印装置上去的数字输出

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语句级汉字输入方法中的用户词识别方法与在线一次性学习方法及机器学习系统无效

专利文献下载