[发明专利]获取限制词信息的方法、优化输出的方法和输入法系统有效
申请号: | 200710099644.0 | 申请日: | 2007-05-25 |
公开(公告)号: | CN101055588A | 公开(公告)日: | 2007-10-17 |
发明(设计)人: | 吕杰勇 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F3/023 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 逯长明 |
地址: | 100084北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 获取 限制 信息 方法 优化 输出 输入法 系统 | ||
技术领域
本发明涉及计算机字符输入数据处理领域,特别是涉及一种获取限制词信息的方法和装置、一种更新输入法词库的方法、一种优化输出的方法以及一种输入法系统。
背景技术
随着计算机技术以及互联网技术的普及与发展,不同专业领域、不同兴趣以及使用习惯的用户对于输入法系统的智能性要求越来越高。
在现有技术中,已经出现了利用庞杂的互联网语料库统计、筛选得到输入法词库的技术。所得到的互联网词库中可以包含很多通过之前的封闭语料信息(如现代汉语词典、新闻、报纸等)所无法得到的新词,从而可以大大提高人们的输入效率。但是,正是由于互联网语料库的复杂性,使得从中通过词频统计筛选得到的一些词,具有语言学或者使用输入习惯上的一些缺陷。
例如,对于用户输入的拼音编码字符串“liangjiang”,一般可获得的候选项包括“两江”、“良将”等,具有互联网词库的候选项还可能包括“量将”,因为“量将”这个词在互联网网页中的出现频率还是相当高的,但是其一般都出现在句子中多个词的连接处(用于表达链接关系),例如,“旅客量将超过”。将“量将”这个词收入输入法词库中,固然可以增加输入法的智能性(达到较高的智能组词效果),但是却由于“量将”一词在单独成词的情况下很少出现,从而也有可能给用户输入造成麻烦,增加用户需要选择的候选项数量,降低输入效率。
因此,迫切需要本领域技术人员解决的一个技术问题就是:如何找出这样的具有语言学或者使用习惯上缺陷的词,并在输入过程中加以限制。
发明内容
本发明所要解决的技术问题是提供一种获取限制词信息的方法和装置,能够从大量的词汇中找出具有语言学或者使用习惯上缺陷的词,从而提高用户的输入体验。
本发明另一个目的是提供一种更新输入法词库的方法、一种优化输出的方法以及一种输入法系统,能够实现在实际输入过程中对某些词在某些情况下加以限制,从而可以实现在不增加用户操作的前提下,达到提高输入法智能性的目的。
为了解决上述技术问题,本发明公开了一种获取限制词信息的方法,具体可以包括:
获取一目标词;获取该目标词相应的特征信息,所述特征信息以数值表示;判断所述特征信息或利用特征信息进行计算的结果是否符合预置条件,如果符合,则确定该目标词为限制词并记录相关限制信息,所述限制词是指具有语言学或使用习惯上缺陷的词,所述限制信息用于限制该目标词单独输出时的排序。
其中,优选的,所述特征信息为:该目标词中位于词首的单字在预设语料库内作为词首的特征值,以及该目标词中位于词尾的单字在预设语料库内作为词尾的特征值;所述预置条件为:上述特征值中是否存在至少一个特征值属于预置范围。
或者,优选的,所述特征信息为:该目标词中所包含的各个单字词和/或多字词的语言学搭配关系在预设语料库内的特征值;所述预置条件为:上述特征值中是否存在至少一个特征值属于预置范围。
或者,优选的,所述特征信息为:该目标词在输入法应用中用户单独输入的特征值;所述预置条件为:该特征值是否属于预置范围。
或者,优选的,所述特征信息包括:该目标词中位于词首的单字在预设语料库内作为词首的特征值;该目标词中位于词尾的单字在预设语料库内作为词尾的特征值;以及该目标词的通用词频;所述预置条件为:上述特征值中至少一个特征值与该目标词通用词频的比值是否属于预置范围。
或者,优选的,所述特征信息包括:该目标词中所包含的各个单字词和/或多字词的语言学搭配关系在预设语料库内的特征值;以及该目标词的通用词频;所述预置条件为:上述特征值中至少一个特征值与该目标词通用词频的比值是否属于预置范围。
或者,优选的,所述特征信息为:该目标词在输入法应用中用户单独输入的特征值;以及该目标词的通用词频;所述预置条件为:该特征值与该目标词通用词频的比值是否属于预置范围。
或者,优选的,所述特征信息为:该目标词在针对同一输入编码的各候选词中的用户排序位置信息;以及该目标词的原始排序位置信息;其中,所述用户排序位置信息与该目标词在输入法应用中用户单独输入的特征值相关;所述原始排序位置信息与该目标词的通用词频相关;所述预置条件为:所述用户排序位置信息与所述原始排序位置信息的差值是否属于预置范围。
优选的,所述限制信息包括:该限制词在各预设场景下的限制单独输出的权重。进一步,所述限制信息可以包括:该限制词在预设语料库中的语言学搭配参数;所述语言学搭配参数用于限制该词在智能组词输出时的排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710099644.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:在微通道中填充催化剂的方法
- 下一篇:芽苗菜生产方法
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置