[发明专利]基于统计语言模型算法的智能信息评估和营销系统在审
申请号: | 201910647150.4 | 申请日: | 2019-07-17 |
公开(公告)号: | CN110347903A | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 吴俊哲;吴剑东 | 申请(专利权)人: | 江苏东网信息科技有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/957;G06F17/27 |
代理公司: | 苏州衡创知识产权代理事务所(普通合伙) 32329 | 代理人: | 张芹 |
地址: | 213022 江苏省常*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于统计语言模型算法的智能信息评估和营销系统,其技术方案要点是包括统计语言模型、双向匹配分词算法、统计语言模型算法与双向匹配分词算法协同工作、提取关键词和内部评估这一系列步骤,本发明的优点在于可以代替人工对信息进行搜索引擎优化,节省大量人力劳动,从而节省人力成本,相对人力更高效的处理速度和处理效率,可以处理海量规模的网络文本数据且处理结果更加精确,有助于提高评估结果的准确度,提高后续营销的导向性。 | ||
搜索关键词: | 算法 统计语言模型 营销系统 智能信息 分词 匹配 评估 技术方案要点 搜索引擎优化 网络文本数据 准确度 处理效率 评估结果 人力成本 导向性 协同 营销 劳动 | ||
【主权项】:
1.一种基于统计语言模型算法的智能信息评估和营销系统,其特征在于:包括以下步骤:步骤一:统计语言模型,采用统计语言模型算法,统计语言模型可以用来表述词汇序列的统计特性,譬如学习序列中单词的联合分布概率函数。如果用w1到wm依次表示一句话中的各个词,那么该句式的出现概率可以简单表示为:其中,模型中的条件概率可以用词频来计算:步骤二:双向匹配分词算法,基于字符串匹配的分词方法又称为机械分词方法,它需要有一个初始的充分大的词典(图1中的专业术语词库和通用词典),然后将待分词的字符串与词典中的元素进行匹配,若能成功匹配,则将该词切分出来,按扫描方向的不同,字符串匹配分词方法可以分为正向匹配和逆向匹配,合并构成双向匹配分词算法;步骤三:统计语言模型算法与双向匹配分词算法协同工作,对目标字符获得词性标注;步骤四:提取关键词,关键词提取公式:用j代表一篇文档,用i代表该文档中的一个词,tf表示一个词在文档中出现的次数;df表示整个语料库中含有某个词的文档个数;N表示整个语料库中的文档总数;由公式可知:一个词在文档中出现的次数越多,其tf值就越大,整个语料库中包含某个词的文档数越少,则df值越大,因此某个词的tf‑df值越大,则这个词是关键词的概率越大;步骤五:内部评估,对步骤四中获得的关键词的被动语态,名词化,复杂名词短语,特定动词出现频率和专业术语频率这5个特征进行评估,根据这5个特征,给予不同的权重系数,即可得到该信息内容是否倾向于学术语言,分析指数值越高,那么认为该信息内容越有价值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏东网信息科技有限公司,未经江苏东网信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910647150.4/,转载请声明来源钻瓜专利网。