[发明专利]一种基于语义分析的智能媒介推荐方法有效
申请号: | 201710304364.2 | 申请日: | 2017-05-03 |
公开(公告)号: | CN107133315B | 公开(公告)日: | 2018-09-28 |
发明(设计)人: | 李百川 | 申请(专利权)人: | 有米科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27;G06Q30/02 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 黄磊;陈宏升 |
地址: | 510006 广东省广州市番*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于语义分析的智能媒介推荐方法,包含以下步骤:抓取媒体号的文章内容并进行预处理;训练词向量模型;计算每个词的逆文档频率;计算媒体号语义向量;媒体号初筛;计算关键词列表语义向量;计算关键词列表语义向量A与初筛之后的媒体号语义向量Sj的余弦相似度;基于语义的媒体号细筛选。本发明据广告主的关键词和预算,利用语义分析技术自动筛选出适合投放的媒体号,精准触达用户群。 | ||
搜索关键词: | 一种 基于 语义 分析 智能 媒介 推荐 方法 | ||
【主权项】:
1.一种基于语义分析的智能媒介推荐方法,其特征在于,包含以下步骤:S1、抓取媒体号的文章内容并进行预处理;所述预处理是对每个媒体号,利用自然语言处理工具将其每篇文章分句、分词,最终将这个媒体号的所有文章合并成一个大文章,文章中的每句是分完词的句子;S2、使用gensim工具训练词向量模型;采用基于Negative Sampling的CBOW模型训练词向量,给定语料库C,词w的上下文是Context(w),词w为正样本,其他词则为负样本;负样本子集NEG(w)包含若干负样本,对于
定义损失函数
整体的目标函数Obj定义为:
其中σ(·)为sigmoid函数,
T为转置运算符号,xw表示Context(w)中各词的词向量之和,即
其中
表示词
的词向量;θu表示词u对应的一个辅助向量,为待训练参数;词向量和辅助向量都是长度为m的实数向量;利用梯度上升方法对上述目标函数进行优化,从而训练出语料库中每个词的词向量;S3、计算每个词的逆文档频率IDF,对于词w来说,
其中N代表媒体号的总数,N(w)表示文章内容中含有词w的媒体号总数;S4、计算媒体号语义向量:对于媒体号Mj,利用TF‑IDF模型对其词向量加权,得到媒体号的语义向量Sj;计算方法如下:
其中vw为词w的词向量,
count(w,Mj)代表词w在媒体号Mj的文章中出现的次数,|Mj|表示媒体号Mj文章的总词数;S5、媒体号初筛:通过人工设定的筛选条件,初筛出一批待挑选的媒体号;所述筛选条件包括媒体号价位、档期、广告类别;S6、计算关键词列表语义向量:对于长度为k的广告关键词列表L=[w1,w2,...,wk],其语义向量A计算方式为:
其中vw是词w的词向量;S7、计算关键词列表语义向量A与初筛之后的媒体号语义向量Sj的相似度:
其中A·Sj表示两个向量的内积,
为向量A的L2范数,
为向量Sj的L2范数;S8、基于语义的媒体号细筛选:综合步骤S7算出的相似度以及设定的筛选条件,利用预先设定的每个筛选条件的权重,算出最终的媒体匹配值,从高到低取前K个形成待选媒体号列表;所述筛选条件包括媒体号价位、档期、广告类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于有米科技股份有限公司,未经有米科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710304364.2/,转载请声明来源钻瓜专利网。