[发明专利]基于统计语言模型算法的智能信息评估和营销系统在审

专利信息
申请号: 201910647150.4 申请日: 2019-07-17
公开(公告)号: CN110347903A 公开(公告)日: 2019-10-18
发明(设计)人: 吴俊哲;吴剑东 申请(专利权)人: 江苏东网信息科技有限公司
主分类号: G06F16/953 分类号: G06F16/953;G06F16/957;G06F17/27
代理公司: 苏州衡创知识产权代理事务所(普通合伙) 32329 代理人: 张芹
地址: 213022 江苏省常*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于统计语言模型算法的智能信息评估和营销系统,其技术方案要点是包括统计语言模型、双向匹配分词算法、统计语言模型算法与双向匹配分词算法协同工作、提取关键词和内部评估这一系列步骤,本发明的优点在于可以代替人工对信息进行搜索引擎优化,节省大量人力劳动,从而节省人力成本,相对人力更高效的处理速度和处理效率,可以处理海量规模的网络文本数据且处理结果更加精确,有助于提高评估结果的准确度,提高后续营销的导向性。
搜索关键词: 算法 统计语言模型 营销系统 智能信息 分词 匹配 评估 技术方案要点 搜索引擎优化 网络文本数据 准确度 处理效率 评估结果 人力成本 导向性 协同 营销 劳动
【主权项】:
1.一种基于统计语言模型算法的智能信息评估和营销系统,其特征在于:包括以下步骤:步骤一:统计语言模型,采用统计语言模型算法,统计语言模型可以用来表述词汇序列的统计特性,譬如学习序列中单词的联合分布概率函数。如果用w1到wm依次表示一句话中的各个词,那么该句式的出现概率可以简单表示为:其中,模型中的条件概率可以用词频来计算:步骤二:双向匹配分词算法,基于字符串匹配的分词方法又称为机械分词方法,它需要有一个初始的充分大的词典(图1中的专业术语词库和通用词典),然后将待分词的字符串与词典中的元素进行匹配,若能成功匹配,则将该词切分出来,按扫描方向的不同,字符串匹配分词方法可以分为正向匹配和逆向匹配,合并构成双向匹配分词算法;步骤三:统计语言模型算法与双向匹配分词算法协同工作,对目标字符获得词性标注;步骤四:提取关键词,关键词提取公式:用j代表一篇文档,用i代表该文档中的一个词,tf表示一个词在文档中出现的次数;df表示整个语料库中含有某个词的文档个数;N表示整个语料库中的文档总数;由公式可知:一个词在文档中出现的次数越多,其tf值就越大,整个语料库中包含某个词的文档数越少,则df值越大,因此某个词的tf‑df值越大,则这个词是关键词的概率越大;步骤五:内部评估,对步骤四中获得的关键词的被动语态,名词化,复杂名词短语,特定动词出现频率和专业术语频率这5个特征进行评估,根据这5个特征,给予不同的权重系数,即可得到该信息内容是否倾向于学术语言,分析指数值越高,那么认为该信息内容越有价值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏东网信息科技有限公司,未经江苏东网信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910647150.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top