[发明专利]一种辅助词库的生成方法和装置有效

专利信息
申请号: 200710304280.5 申请日: 2007-12-26
公开(公告)号: CN101470732A 公开(公告)日: 2009-07-01
发明(设计)人: 张军 申请(专利权)人: 北京搜狗科技发展有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京集佳知识产权代理有限公司 代理人: 苏培华;逯长明
地址: 100084北京市海淀区中关*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 辅助 词库 生成 方法 装置
【说明书】:

技术领域

发明涉及计算机字符信息的输入领域,特别是涉及一种用于字符输入的辅助词库的生成方法和装置。 

背景技术

在现代的计算机应用中,汉字输入法已经成为中文用户与计算机交互的重要手段。汉字输入法技术需要将用户的一连串键盘按键翻译成用户最可能想要的汉字串。大部分汉字输入方法的规则下,按键串到汉字串并不是一一对应的,特别是被广泛使用的拼音输入法,相同的按键串往往对应着多种可能的词汇、短语或者句子。要提高用户的输入效率,汉字输入法就需要带有一个“词库”,词库中含有用户最可能会使用的汉字、词语和短句。 

但是,目前输入法的词库一般只能够覆盖人们使用的词汇的一部分,通常主要包括一些人们普遍的常用词汇,还有一部分词汇输入法词库是不可能全部包括进来的。因为现有的输入法词库都是通用的,针对的是所有用户,如果把所有用户用的词汇都加入进来,那么输入法的词库容量将在数百万的量级。词库过大,同音字过多,候选项增加,不需要使用这些词的用户会受到干扰,并且,这样一个超大的词库势必大幅占用硬盘、CPU、内存等计算设备资源,对个人电脑来说是不能接受的。 

其次,由于汉语的灵活性,各种词语丰富而多样,每个人都有自己偏好使用的词汇集合,即使同样一个词汇对于不同的人而言,其使用词频都可能是不同的。 

例如,每个人在使用输入法时除了输入许多常用词汇之外(例如“现在”、“时间”、“多少”等),还会输入一小部分人用的词汇,例如:一些游戏名词“艾泽拉斯”“德鲁伊”,电影名称“云水谣”等等。这些词汇对非常小的群体来说会经常输入,例如:魔兽世界玩家,电影评论家等等;但是这些词汇在总体用户中的使用比例比较低,为了保证词库的通用性,现有模式下面向所有用户的输入法词库是不可能把这些词汇全部包括进去的。 

上述现有技术的缺陷,导致用户输入上述这些小群体的常用词汇时的首选词准确率非常低,严重影响用户的使用体验以及其思想的表达。 

总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够创造性的提出一种获取某个用户群体常用的个性化词汇,并进一步能够根据使用者的具体情况来提供个性化的辅助词库,以提高用户的输入效率。 

发明内容

本发明所要解决的技术问题是提供一种辅助词库的生成方法和装置,能够简单方便地获取某个用户群体常用的个性化词汇,当用户采用包括有相应群体个性化词汇的辅助词库进行输入时,可以大大提高其输入相关字词的效率。 

为了解决上述问题,本发明公开了一种辅助词库的生成方法,可以包括:获取一特定用户群体的历史输入字词及其词频;分析所述历史输入字词及其词频,获取符合预置条件的、属于该特定用户群体的特色字词及其词频;生成针对该特定用户群体的辅助词库。 

优选的,所述历史输入字词及其词频的获取步骤可以包括:通过汇集一特定用户群体的个人词库而获得该特定用户群体的历史输入字词及其词频。 

优选的,所述历史输入字词及其词频的获取步骤可以包括:通过针对该特定用户群体的文字素材进行分词统计而获得;或者,通过该特定用户群体的用户手动添加相应的字词及其词频而获得。 

优选的,通过以下方式汇集一特定用户群体的个人词库:收集多个输入法客户端用户的个人词库,并记录用户与其个人词库的对应关系;所述个人词库包括字词及词频;针对各用户的个人词库,计算得到该用户的特征参数;计算各用户特征参数之间的相似度,完成对各个用户的聚类,进而获取所需的个人词库。 

优选的,也可以通过以下方式汇集一特定用户群体的个人词库:收集多个输入法客户端用户的个人词库;所述个人词库包括字词及词频;针对各用户的个人词库,计算得到该个人词库的特征参数;计算各词库特征参数之间的相似度,完成对各个词库的聚类,进而获取所需的个人词库。 

优选的,所述预置条件包括:目标字词在该特定用户群体的历史语料中的词频高于预设阈值,但是在通用词库中的词频小于预设阈值。 

优选的,所述的方法还可以包括:接受用户的下载请求,向用户发布相应特定用户群体的辅助词库;或者,当用户登录一网络空间时,该网络空间向用户发布所述生成的辅助词库;所述网络空间指向一特定用户群体。 

优选的,所述的方法还可以包括:向通过个人词库聚类得到的特定用户群体发布所述生成的针对该特定用户群体的辅助词库。 

依据本发明的另一优选实施例,还公开了一种辅助词库的生成装置,可以包括: 

历史信息获取模块,用于获取一特定用户群体的历史输入字词及其词频; 

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200710304280.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top