[发明专利]基于统计语言模型算法的智能信息评估和营销系统在审
| 申请号: | 201910647150.4 | 申请日: | 2019-07-17 |
| 公开(公告)号: | CN110347903A | 公开(公告)日: | 2019-10-18 |
| 发明(设计)人: | 吴俊哲;吴剑东 | 申请(专利权)人: | 江苏东网信息科技有限公司 |
| 主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/957;G06F17/27 |
| 代理公司: | 苏州衡创知识产权代理事务所(普通合伙) 32329 | 代理人: | 张芹 |
| 地址: | 213022 江苏省常*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 算法 统计语言模型 营销系统 智能信息 分词 匹配 评估 技术方案要点 搜索引擎优化 网络文本数据 准确度 处理效率 评估结果 人力成本 导向性 协同 营销 劳动 | ||
本发明公开了一种基于统计语言模型算法的智能信息评估和营销系统,其技术方案要点是包括统计语言模型、双向匹配分词算法、统计语言模型算法与双向匹配分词算法协同工作、提取关键词和内部评估这一系列步骤,本发明的优点在于可以代替人工对信息进行搜索引擎优化,节省大量人力劳动,从而节省人力成本,相对人力更高效的处理速度和处理效率,可以处理海量规模的网络文本数据且处理结果更加精确,有助于提高评估结果的准确度,提高后续营销的导向性。
技术领域
本发明涉及一种网络检索系统,更具体地说,它涉及一种基于统计语言模型算法的智能信息评估和营销系统。
背景技术
搜索引擎抓取优化是通过了解各类搜索引擎抓取互联网页面、进行索引以及确定其对特定关键词搜索结果排名等技术,来对网页进行相关的优化,使其提高搜索引擎排名,从而提高网站访问量,最终提升网站的销售或宣传的效果。
现有技术一般被称为:SEO(Search Engine Optimization),即搜索引擎优化。
SEO与本发明相关主要有3个方面:
第一,对网页META标签进行优化:内容标题、关键词还有内容摘要都是标签优化的目标。
第二,网站内部的链接优化是影响网站点击率的主要因素,相关性连接,锚文本链接都要进行优化,满足网站用户的需求。
第三,对网页代码压缩、改进,主要是保持网站主页的唯一性,网站内页与主业的链接。
现有技术存在以下缺点:当前SEO都采用人工方式,费时费力,并且易受从业人员的素质影响。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种基于统计语言模型算法的智能信息评估和营销系统。
为实现上述目的,本发明采用如下技术方案:一种基于统计语言模型算法的智能信息评估和营销系统,包括以下步骤:
步骤一:统计语言模型,采用统计语言模型算法,统计语言模型可以用来表述词汇序列的统计特性,譬如学习序列中单词的联合分布概率函数。如果用w1到wm依次表示一句话中的各个词,那么该句式的出现概率可以简单表示为:
其中,模型中的条件概率可以用词频来计算:
步骤二:双向匹配分词算法,基于字符串匹配的分词方法又称为机械分词方法,它需要有一个初始的充分大的词典(图1中的专业术语词库和通用词典),然后将待分词的字符串与词典中的元素进行匹配,若能成功匹配,则将该词切分出来,按扫描方向的不同,字符串匹配分词方法可以分为正向匹配和逆向匹配,合并构成双向匹配分词算法;
步骤三:统计语言模型算法与双向匹配分词算法协同工作,对目标字符获得词性标注;
步骤四:提取关键词,关键词提取公式:
用j代表一篇文档,用i代表该文档中的一个词,
tf表示一个词在文档中出现的次数;
df表示整个语料库中含有某个词的文档个数;
N表示整个语料库中的文档总数;
由公式可知:一个词在文档中出现的次数越多,其tf值就越大,整个语料库中包含某个词的文档数越少,则df值越大,因此某个词的tf-df值越大,则这个词是关键词的概率越大;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏东网信息科技有限公司,未经江苏东网信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910647150.4/2.html,转载请声明来源钻瓜专利网。





