[发明专利]基于移动互联网访问的文本内容分类方法有效
申请号: | 201410126495.2 | 申请日: | 2014-03-31 |
公开(公告)号: | CN103902703A | 公开(公告)日: | 2014-07-02 |
发明(设计)人: | 孙宏;赵晓波;季海东;董童霖;赵宇龙 | 申请(专利权)人: | 辽宁四维科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 沈阳杰克知识产权代理有限公司 21207 | 代理人: | 罗莹 |
地址: | 110043 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 移动 互联网 访问 文本 内容 分类 方法 | ||
技术领域
本发明属于海量的大数据处理和内容分类领域,特别是涉及到一个基于移动互联网访问的、百亿级访问量的海量数据处理的文本内容分类方法。
技术背景
目前,作为省级电信运营商在从“话务经营”向“流量经营”的业务转型过程中,其用户每天访问移动互联网的页面URL数少者有几亿条、多者有几十亿条、甚至上百亿条,涉及的网站几十万,其文本内容千变万化。因此,如何对用户访问的文本内容进行准确、高效率地分类,从而来分析用户的访问行为,实现精准地刻画客户访问兴趣特征,是三大运营商急需解决的智能营销的核心问题。
在实际运营中,电信运营商对如此海量的大数据多数采用的是域名分类法或网站分类法进行内容分类。实际上,网站和域名分类法就是人工梳理网站的频道(或栏目)、子频道(或子栏目),其缺点第一是分类准确性很低,包含有大量的“垃圾”页面URL在分类之中;第二是属于人工分类、不能实现机器自动分类;第三是分类的类别太多,多达四五千个。然而,实际工作中只需要百十余个,因此不能准确地刻画客户的兴趣特征的同时,还浪费了大量系统资源;第四是分类不灵活,网站没有的频道或栏目就无法进行分类。特别是,基于移动互联网访问的文本内容分类是对"有效"内容的分类,要求能够通过该内容分析客户在移动互联网上的访问行为,来精准地刻画客户的兴趣特征,达到降低运营成本、提高服务水平、减少客户投诉、增加企业收益的智能营销的目的。因此,需要清洗导航、功能、统计、天气、错误、流量、登录、下载、版权、接口、脚本等“垃圾”页面URL。
在学术上,自动内容分类方法已经成为研究自然语言处理的热点,其分类方法各种各样,归结为有⑴基于IF-THEN专家推理规则的分类方法;⑵基于自然语言利用神经网络的学习算法;⑶基于关键词的语言算法等的语义分析;⑷基于一组词或词组在文中出现频率、位置、以及词与词间的亲近程度的模式匹配;⑸通过识别内容中的共性元素进行聚类分类;⑹基于概率统计的贝叶斯分类;⑺遗传算法分类优化技术等等……。但是,这些分类方法只解决某些部分的具体应用、数据规模比较小、没有海量“垃圾”的内容分类。
然而,不论是在实际应用中还是在学术研究上,现有的技术都没有能解决如此海量大数据的移动互联网文本内容的分类问题,即没有解决超过一半以上“垃圾”页面清洗过滤的问题、以及没有解决百亿级别的内容分类等问题。
发明内容
鉴于以上存在的问题,本发明的目的在于:提供一种通过人工智能专家系统构建的基于移动互联网访问的文本内容分类方法、系统及装置,旨在解决省级电信运营商业务转型中如何处理百亿级海量访问内容(页面URL)的“垃圾”清洗、如何对“有效”内容进行准确而高效的分类、如何对数据清洗知识和内容分类知识进行更新的问题。
本发明的目的是通过如下技术方案实现:
一种基于移动互联网访问的文本内容分类方法,其特征在于,包括:如下步骤:
(1)数据清洗:针对用户在移动互联网上的访问记录,根据“URL清洗知识库”,调用“URL清洗推理机”清洗访问记录中的“垃圾”页面内容,即不是用户最终浏览的“有效”内容;
(2)已知内容分类:所述的已知内容是用户在移动互联网上浏览的内容已经纳入到“URL分类知识库”中的内容,其分类是在步骤(1)的基础上,根据“URL分类知识库”调用“URL分类推理机”进行的内容分类;
(3)未知内容分类:未知内容是用户在移动互联网上浏览的内容未能纳入“URL分类知识库”知识库中的内容,其分类是在步骤(2)的基础上,爬取分类未成功的页面,并进行切词、过滤和去重,然后再根据“代表词分类知识库”,调用“代表词分类推理机”进行的内容分类。
(4)知识更新:根据步骤(3)“代表词分类推理机”中生成的“垃圾URL特征数据”、“新增URL分类数据”和“新增代表词分类数据”三个中间文件,分别调用“URL清洗知识更新”引擎、“URL分类知识更新”引擎和“代表词分类知识更新”引擎进行更新,经人工确认后更新URL清洗知识库”和“URL分类知识库知识库”中的相应知识和规则,自动更新“代表词分类知识库”中的相应知识和规则。
所述步骤(1)中的“URL清洗推理机”,的清洗规则包括:
(1)格式验证:完整性验证,即访问记录的核心字段是否包括用户ID,URL格式,访问时间(包括日期YYYY-MM-DD和时间HH:MM:SS),只要不包括其中一个字段,即为数据不完整,则清洗掉该条记录;一致性验证是验证用户ID、URL和访问时间格式是否规范,若不规范,则清洗掉该条记录;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁四维科技发展有限公司,未经辽宁四维科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410126495.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:家用垃圾筒
- 下一篇:直流输电换流阀水冷系统用水泵机械密封冲洗冷却结构