[发明专利]一种基于关键词的智能分组方法及装置有效
申请号: | 201410309022.6 | 申请日: | 2014-07-01 |
公开(公告)号: | CN104063370B | 公开(公告)日: | 2017-09-22 |
发明(设计)人: | 裴向宇;田传钊;张涛 | 申请(专利权)人: | 北京博雅立方科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京品源专利代理有限公司11332 | 代理人: | 胡彬,邓猛烈 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 关键词 智能 分组 方法 装置 | ||
1.一种基于关键词的智能分组方法,其特征在于,包括:
将关键词拆分成单字,按照频数从高到低筛选出第一数目的单字作为高频单字;
所述高频单字为频数大于或等于筛选参数的单字,所述筛选参数为:当关键词个数超过第一阈值时筛选参数为第二阈值与关键词个数乘以预设系数后较大的值;当关键词个数不足第一阈值时筛选参数为第三阈值;
从所述关键词内提取出由至少两个高频单字组成的词根,按照频数从高到低筛选出第二数目的词根作为核心词根;
根据所筛选的核心词根对所述关键词进行分组;
在所述分组后的组内,重复执行筛选高频单字、筛选核心词根、以及根据所筛选的核心词对组内关键词进行分组,直到满足预设停止条件;
所述预设停止条件包括:计算上次分组后所有关键词的比例因子之和与本次分组后所有关键词的比例因子的差值,当所述差值小于预设阈值,则停止分组,以上次分组结果为最终分组结果;其中,所述关键词的比例因子等于关键词的各次词根的字数与关键词总字数的比值。
2.如权利要求1所述的基于关键词的智能分组方法,其特征在于:
所述第一数目为预设值或根据第一预设算法获取;
所述第二数目为预设值或根据第二预设算法获取。
3.如权利要求1所述的基于关键词的智能分组方法,其特征在于,所述预设停止条件包括:当关键词的分组数达到预设阈值,则停止继续分组。
4.一种基于关键词的智能分组装置,其特征在于,包括:
高频单字筛选单元,用于将关键词拆分成单字,按照频数从高到低筛选出第一数目的单字作为高频单字;
所述高频单字为频数大于或等于筛选参数的单字,所述筛选参数为:当关键词个数超过第一阈值时筛选参数为第二阈值与关键词个数乘以预设系数后较大的值;当关键词个数不足第一阈值时筛选参数为第三阈值;
核心词根筛选单元,用于从所述关键词内提取出由至少两个高频单字组成的词根,按照频数从高到低筛选出第二数目的词根作为核心词根;
分组单元,用于根据所筛选的核心词根对所述关键词进行分组;
重复分组单元,用于在所述分组后的组内,重复执行筛选高频单字、筛选核心词根、以及根据所筛选的核心词对组内关键词进行分组,直到满足预设停止条件;
所述预设停止条件包括:计算上次分组后所有关键词的比例因子之和与本次分组后所有关键词的比例因子的差值,当所述差值小于预设阈值,则停止分组,以上次分组结果为最终分组结果;其中,所述关键词的比例因子等于关键词的各次词根的字数与关键词总字数的比值。
5.如权利要求4所述的基于关键词的智能分组装置,其特征在于:
所述第一数目为预设值或根据第一预设算法获取;
所述第二数目为预设值或根据第二预设算法获取。
6.如权利要求4所述的基于关键词的智能分组装置,其特征在于,所述预设停止条件包括:当关键词的分组数达到预设阈值,则停止继续分组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京博雅立方科技有限公司,未经北京博雅立方科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410309022.6/1.html,转载请声明来源钻瓜专利网。