[发明专利]文本处理的方法及装置有效
申请号: | 201710633514.4 | 申请日: | 2017-07-28 |
公开(公告)号: | CN110019771B | 公开(公告)日: | 2021-08-13 |
发明(设计)人: | 孙中秋 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/953;G06F16/951;G06F40/289 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 王伟锋;刘铁生 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 | ||
本发明公开了一种文本处理的方法及装置,涉及数据挖掘技术领域,为解决现有的获取突增词并且依据突增词进行用户需求分析的方法影响分析结果的准确性而发明。本发明的方法包括:获取不同周期内的网络文本对应的异动词,所述异动词为包含于网络文本中的在一个周期内词频值突增或突减的词;将所述异动词作为检索关键词对不同周期内的网络文本进行检索,筛选出不同周期对应的需求分析文本,以使用需求分析文本进行用户需求分析。本发明适合应用在用户需求分析的过程中。
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种文本处理的方法及装置。
背景技术
在互联网时代,为了更好的掌握用户的需求,通常会对用户在互联网上行为(点击、注册、留言、评论等)进行分析,然后根据分析的结果来了解用户的需求,并依此进行业务的调整,以便于及时与用户的需求保持一致。比如,一些商品或者信息推送网站,通常会根据用户的留言或者评论进行用户的需求分析,具体分析时通常关心的是留言或评论中的突增词,突增词是指在一定时间内出现频次突增的词语,然后根据突增词确定用户的需求。现有技术中获取突增词的方法为从不同周期内留言或评论中提取出的关键词中选出预设数量的高频关键词,然后判断某一周期中的高频关键词是否属于该周期的上一周期内的高频关键词,如果不属于则将该关键词作为突增词。
本发明人在实施上述现有的方法获取突增词以及依据突增词确定用户需求的过程中,发现现有的方法中获取到的突增词只包含预设数量的高频关键词,造成其他实际可以反映用户需求的关键词的忽略,并且仅依据突增词来确定用户的需求比较片面,综上,现有的获取突增词并且依据突增词进行用户需求分析的方法影响分析结果的准确性。
发明内容
鉴于上述问题,本发明提供一种文本处理的方法及装置,为了提高用户需求分析结果的准确性。
为解决上述技术问题,第一方面,本发明提供了一种文本处理的方法,该方法包括:
获取不同周期内的网络文本对应的异动词,所述异动词为包含于网络文本中的在一个周期内词频值突增或突减的词;
将所述异动词作为检索关键词对不同周期内的网络文本进行检索,筛选出不同周期对应的需求分析文本,以使用需求分析文本进行用户需求分析。
可选的,所述获取不同周期内的网络文本对应的异动词,包括:
获取不同周期内的网络文本对应的关键词;
根据关键词的词频值选取每个周期对应的核心关键词;
根据核心关键词的异动比例从核心关键词中确定异动词,所述异动比例为核心关键词词频值在一个周期内的增幅比例或减幅比例。
可选的,所述根据关键词的词频值选取每个周期对应的核心关键词,包括:
计算每个周期内包含的所有关键词的词频平均值,一个周期对应一个词频平均值;
从每个周期内包含的关键词中选出词频值大于该周期对应的词频平均值的关键词作为该周期对应的核心关键词。
可选的,将所述异动词作为检索关键词对不同周期内的网络文本进行检索,筛选出不同周期对应的需求分析文本,包括:
将不同周期内的异动词进行合并;
根据预设聚类算法对合并后的异动词进行聚类,得到多组异动词;
将每组异动词作为检索关键词分别对不同周期内的网络文本进行检索;
将包含预设数量的同组异动词的网络文本确定为需求分析文本。
可选的,将所述异动词作为检索关键词对不同周期内的网络文本进行检索,筛选出不同周期对应的需求分析文本,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710633514.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:训练分类模型的方法与装置
- 下一篇:一种文本情绪分类方法及系统