[发明专利]一种近似词条结构推荐方法和系统有效
申请号: | 201710131132.1 | 申请日: | 2017-03-07 |
公开(公告)号: | CN108572954B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 马也驰;谭红 | 申请(专利权)人: | 上海颐为网络科技有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 施浩 |
地址: | 200030 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 近似 词条 结构 推荐 方法 系统 | ||
本发明公开了一种近似词条结构推荐方法和系统,能够自动将相近的词条结构识别出来并提供给新建词条的用户进行参考,提升了用户建立词条结构的效率、并能加深用户对词条结构的理解。其技术方案为:接收用户新建的根词条的结构,实时将结构格式转化为文本格式并存储;将转化为文本格式的新建的根词条与其他转化为文本格式的已有根词条进行两两余弦相似度对比;将余弦相似度超过预设阈值的已有根词条的文本格式转化为结构格式后呈现给用户,否则不呈现给用户。
技术领域
本发明涉及一种近似词条结构的推荐方法和系统,尤其涉及基于余弦相似度这一参数对词条结构进行推荐的技术。
背景技术
在以词条结构为基础的信息平台上,随着用户数量的增加,会有很多用户对同样的知识体系进行定义和结构化。当用户在系统中为了建立一个词条结构而新建一个根词条时,往往在系统中已经存储了和该新建根词条类似的词条结构。
在以往的信息平台上,即使存在类似的词条结构,也不会告知新建根词条的用户,信息平台上已知的词条结构便不能为该用户服务。用户依然在没有任何参考的情况下建立词条结构,这会造成用户在信息平台上的使用效率的降低。而且容易导致平台上产生大量结构格式相似的词条,不利于平台上的信息整理和显示。
因此,目前业界亟待一种能够自动将系统中已存的近似词条结构获取出来并提供给用户进行参考的手段。
发明内容
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
本发明的目的在于解决上述问题,提供了一种近似词条结构推荐方法和系统,能够自动将相近的词条结构识别出来并提供给新建词条的用户进行参考,提升了用户建立词条结构的效率、并能加深用户对词条结构的理解。
本发明的技术方案为:本发明揭示了一种近似词条结构推荐方法,包括:
步骤一:接收用户新建的根词条的结构,实时将结构格式转化为文本格式并存储;
步骤二:将转化为文本格式的新建的根词条与其他转化为文本格式的已有根词条进行两两余弦相似度对比;
步骤三:将余弦相似度超过预设阈值的已有根词条的文本格式转化为结构格式后呈现给用户,否则不呈现给用户。
根据本发明的近似词条结构推荐方法的一实施例,词条结构格式转化为文本格式的过程中,词条结构中的词条属性按照键值对以哈希存储方式进行存储,其中词条属性包括词条标识、词条名称、词条文本、父级词条、子级词条,在将词条结构格式转化为文本格式的过程中,将词条结构中的根词条的词条属性以及根词条下所有子词条的词条属性读取出来以形成文本格式。
根据本发明的近似词条结构推荐方法的一实施例,步骤二进一步包括:
步骤1:导入gensim数据库;
步骤2;将现有的所有词条导入documents列表中,词条与词条用逗号间隔;
步骤3:将现有的所有词条向量化;
步骤4:通过步骤3中的向量值构建相应的TD_IDF模型;
步骤5:通过TD_IDF模型计算每个词条的TD_IDF值;
步骤6:通过每个词条的TD_IDF值构建相应的LSI模型;
步骤7:导入用户新建的根词条,将其向量化;
步骤8:将步骤7中的新建的根词条的向量值导入步骤6构建的LSI模型中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海颐为网络科技有限公司,未经上海颐为网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710131132.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种词条结构的合并方法
- 下一篇:一种日志文件生成方法和装置