[发明专利]一种辅助词库的生成方法和装置有效
申请号: | 200710304280.5 | 申请日: | 2007-12-26 |
公开(公告)号: | CN101470732A | 公开(公告)日: | 2009-07-01 |
发明(设计)人: | 张军 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 苏培华;逯长明 |
地址: | 100084北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 辅助 词库 生成 方法 装置 | ||
1.一种辅助词库的生成方法,其特征在于,包括:
获取一特定用户群体的历史输入字词及其词频;
分析所述历史输入字词及其词频,获取符合预置条件的、属于该特定用户 群体的特色字词及其词频;
生成针对该特定用户群体的辅助词库。
2.如权利要求1所述的方法,其特征在于,所述历史输入字词及其词频 的获取步骤包括:
通过汇集一特定用户群体的个人词库而获得该特定用户群体的历史输入 字词及其词频。
3.如权利要求1或2所述的方法,其特征在于,所述历史输入字词及其 词频的获取步骤包括:
通过针对该特定用户群体的文字素材进行分词统计而获得;
或者,通过该特定用户群体的用户手动添加相应的字词及其词频而获得。
4.如权利要求2所述的方法,其特征在于,通过以下方式汇集一特定用 户群体的个人词库:
收集多个输入法客户端用户的个人词库,并记录用户与其个人词库的对应 关系;所述个人词库包括字词及词频;
针对各用户的个人词库,计算得到该用户的特征参数;
计算各用户特征参数之间的相似度,完成对各个用户的聚类,进而获取所 需的个人词库。
5.如权利要求2所述的方法,其特征在于,通过以下方式汇集一特定用 户群体的个人词库:
收集多个输入法客户端用户的个人词库;所述个人词库包括字词及词频;
针对各用户的个人词库,计算得到该个人词库的特征参数;
计算各词库特征参数之间的相似度,完成对各个词库的聚类,进而获取所 需的个人词库。
6.如权利要求1或2所述的方法,其特征在于,所述预置条件包括:
目标字词在该特定用户群体的历史语料中的词频高于预设阈值,但是在通 用词库中的词频小于预设阈值。
7.如权利要求1所述的方法,其特征在于,还包括:
接受用户的下载请求,向用户发布相应特定用户群体的辅助词库;
或者,当用户登录一网络空间时,该网络空间向用户发布所述生成的辅助 词库;所述网络空间指向一特定用户群体。
8.如权利要求4或5所述的方法,其特征在于,还包括:
向通过个人词库聚类得到的特定用户群体发布所述生成的针对该特定用 户群体的辅助词库。
9.一种辅助词库的生成装置,其特征在于,包括:
历史信息获取模块,用于获取一特定用户群体的历史输入字词及其词频;
分析模块,用于分析所述历史输入字词及其词频,获取符合预置条件的、 属于该特定用户群体的特色字词及其词频;
词库生成模块,用于生成针对该特定用户群体的辅助词库。
10.如权利要求9所述的装置,其特征在于,
所述历史信息获取模块通过汇集一特定用户群体的个人词库而获得该特 定用户群体的历史输入字词及其词频。
11.如权利要求9或10所述的装置,其特征在于,
所述历史信息获取模块通过针对该特定用户群体的文字素材进行分词统 计而获得;
或者,所述历史信息获取模块通过该特定用户群体的用户手动添加相应的 字词及其词频而获得。
12.如权利要求10所述的装置,其特征在于,所述历史信息获取模块进 一步包括:
个人词库收集子模块,用于收集多个输入法客户端用户的个人词库;所述 个人词库包括字词及词频;
特征参数计算子模块,用于针对各用户的个人词库,计算得到该个人词库 的特征参数;
群体聚类子模块,用于计算各词库特征参数之间的相似度,完成对各个词 库的聚类,进而获取所需的个人词库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710304280.5/1.html,转载请声明来源钻瓜专利网。