[发明专利]一种基于搜索记录的敏感词汇标记方法在审
申请号: | 201711223048.9 | 申请日: | 2017-11-29 |
公开(公告)号: | CN107783963A | 公开(公告)日: | 2018-03-09 |
发明(设计)人: | 罗艳 | 申请(专利权)人: | 四川九鼎智远知识产权运营有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 成都九鼎天元知识产权代理有限公司51214 | 代理人: | 詹永斌 |
地址: | 610041 四川省成都市高新*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 搜索 记录 敏感 词汇 标记 方法 | ||
1.一种基于搜索记录的敏感词汇标记方法,其特征为,包括:
获取若干用户的搜索记录;
将所述若干用户的搜索记录分别拆分为若干短语;
分别统计拆分后的所有短语中,各短语的短语信息;
标记所述各短语中,短语信息携带的信息满足标记要求的短语为敏感词汇。
2.如权利要求1所述的方法,其特征为,所述将所述若干用户的搜索记录分别拆分为若干短语包括:
将所述若干用户的搜索记录,按词性拆分为若干短语。
3.如权利要求2所述的方法,其特征为,所述短语信息包括:短语数量和预定时段该短语出现的频率。
4.如权利要求3所述的方法,其特征为,所述标记要求为:短语出现的频率下限和/或短语数量下限。
5.如权利要求4所述的方法,其特征为,所述分别统计拆分后的所有短语中,各短语的短语信息包括:
遍历所述拆分后的所有短语,获取若干短语名,所述若干短语名分别为在所述所有短语中至少出现一次的若干短语;和
分别统计在预定时段所述若干短语名对应的短语在所述所有短语中出现的数量;和
分析出所述若干短语名对应的短语在所述预定时段出现的频率。
6.如权利要求5所述的方法,其特征为,所述标记所述各短语中,短语信息携带的信息满足标记要求的短语为敏感词汇为:
将所述若干短语名中,短语信息携带的信息满足标记要求的短语分别存入敏感词汇库。
7.如权利要求6所述的方法,其特征为,所述将所述各短语中,短语信息携带的信息满足标记要求的短语分别存入敏感词汇库包括:
复制所述若干短语名到第一缓存区;
由复制的先后顺序逐一判断所述若干短语名中每一条短语名的短语信息是否满足标记要求;若不满足,则丢弃该短语名,直到判断完所有短语名;
将判断结束后所述第一缓存区中的短语名存入敏感词汇库。
8.如权利要求6所述的方法,其特征为,所述将所述各短语中,短语信息携带的信息满足标记要求的短语分别存入敏感词汇库包括:
复制所述若干短语名到第二缓存区;
由复制的先后顺序逐一判断所述若干短语名中每一条短语名的短语信息是否满足标记要求;若满足,则将该短语名存入敏感词汇库;
清空所诉第二缓存区。
9.如权利要求7或8所述的方法,其特征为,所述敏感词汇库将存入的所述短语名以其词性或专业领域分为若干短语组。
10.如权利要求9所述的方法,其特征为,所述敏感词汇库分别将所述若干短语组中的短语名以其首字母进行排序。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川九鼎智远知识产权运营有限公司,未经四川九鼎智远知识产权运营有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711223048.9/1.html,转载请声明来源钻瓜专利网。