[发明专利]运用标签知识网络的搜索方法及装置有效
申请号: | 201910529138.3 | 申请日: | 2019-06-19 |
公开(公告)号: | CN110059271B | 公开(公告)日: | 2020-01-10 |
发明(设计)人: | 郝俊禹;文辉;陈运文 | 申请(专利权)人: | 达而观信息科技(上海)有限公司 |
主分类号: | G06F16/955 | 分类号: | G06F16/955;G06F16/9535 |
代理公司: | 11541 北京卓唐知识产权代理有限公司 | 代理人: | 唐海力;马云超 |
地址: | 201203 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 物品标签 用户标签 知识网络 标签 搜索方法及装置 历史行为数据 用户特征向量 物品特征 向量 扩展性 标签提取 结果语义 模型构建 文本信息 用户偏好 算法 图谱 检索 局限 申请 保证 分析 | ||
1.一种运用标签知识网络的搜索方法,其特征在于,包括:
获取多个推荐物品,对每个推荐物品相关的文本信息进行标签提取得到对应的一个或多个物品标签,并确定由所有所述物品标签构成的物品标签集;
确定用户对不同物品的历史行为数据,根据所述历史行为数据分析出用户偏好的用户标签,并确定由所有所述用户偏好的用户标签构成的用户标签集;
通过所述物品标签集、知识图谱以及word2vec模型构建标签知识网络;其中,所述标签知识网络是以标签为节点,标签之间的关联度为边的网络,通过所述物品标签集、知识图谱以及word2vec模型构建标签知识网络包括:将所述物品标签集当作语料,使用word2vec模型生成每个标签的向量;
根据每个物品标签的向量并通过余弦相似值计算不同标签间的相似度wtag,生成标签关联网络Gtag=<Vtag,Etag>;其中Vtag为所述标签关联网络的顶点集,即所有标签的集合;Etag为所述标签关联网络的边集,即不同标签间的相似度wtag集合;
将所述知识图谱中实体与实体之间的关系转换成关联权重wgraph,生成知识网络Gk=<Vk,Ek>;其中,Vk为所述知识网络的顶点集,即所述知识图谱中所有标签实体集合;Ek为所述知识网络的边集,即不同标签实体间的关联权重wgraph集合;
将所述知识网络Gk=<Vk,Ek>和标签关联网络Gtag=〈Vtag,Etag>以所述标签关联网络的节点为基础进行合并生成所述标签知识网络G=〈V,E>;其中,V为所述标签知识网络的顶点集,所述标签知识网络的顶点集和所述标签关联网络的顶点集Vtag完全一致;E为标签知识网络的边集,所述标签知识网络的边集是标签关联网络的边集和知识网络的边集子集E′构成的合集,所述知识网络的边集子集E′是知识网络中包含Vtag标签的所有标签实体形成的边集,即V=Vtag,E=Etag+E′,E′中的关联权重we=wtag+wgraph;
将所述E′中的关联权重we低于wthreshold的关联关系全部去掉,并得到Ecut;其中,wthreshold为关联权重阈值;根据所述物品标签集、用户标签集以及所述标签知识网络生成所述推荐物品的物品特征向量以及所述用户的用户特征向量;
通过需要进行检索的物品特征向量或需要进行检索的用户特征向量检索得到相关物品或相关用户。
2.根据权利要求1所述的运用标签知识网络的搜索方法,其特征在于,所述获取多个推荐物品;对每个推荐物品相关的文本信息进行标签提取得到对应的一个或多个物品标签,并确定由所有所述物品标签构成的物品标签集,包括:
确定每个所述推荐物品的文本;其中,所述文本包括:标题及描述内容;
对所述文本进行分词,得到多个词组;
确定每个所述词组的特征;其中,所述特征包括:词性、出现频率、是否是无用词;
根据每个所述词组的特征对其进行评分,并保留满足第一分数阈值要求的词组作为对应的所述推荐物品的物品标签;
确定每个所述推荐物品的所有所述物品标签,并得到所述物品标签集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达而观信息科技(上海)有限公司,未经达而观信息科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910529138.3/1.html,转载请声明来源钻瓜专利网。