[发明专利]确定新闻之间相关性的方法和装置有效

专利信息
申请号: 201510974316.5 申请日: 2015-12-22
公开(公告)号: CN105528335B 公开(公告)日: 2018-10-09
发明(设计)人: 张伸正;魏少俊;陈培军 申请(专利权)人: 北京奇虎科技有限公司;奇智软件(北京)有限公司
主分类号: G06F17/22 分类号: G06F17/22
代理公司: 北京鼎佳达知识产权代理事务所(普通合伙) 11348 代理人: 王伟锋;刘铁生
地址: 100088 北京市西城区新*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供一种确定新闻之间相关性的方法和装置,方法包括:将第一新闻与标杆新闻进行比较,得到第一新闻与标杆新闻的距离;将第二新闻与标杆新闻进行比较,得到第二新闻与标杆新闻的距离;计算第一新闻与标杆新闻的距离和第一新闻与标杆新闻的距离之间的距离差,根据距离差确定第一新闻与第二新闻之间的相关性。根据本发明,当需要分析不同新闻之间的相关性时,不必进行多个新闻之间的对比,而是进行多个新闻与标杆新闻之间的比较;由于标杆新闻只有一个,而其他新闻不需要进行互相之间的对比,只需要进行与标杆新闻的对比,即可确定多个新闻之间的相关性,所以根据本发明的技术方案获取相关新闻的效率非常高。
搜索关键词: 确定 新闻 之间 相关性 方法 装置
【主权项】:
1.一种确定新闻之间相关性的方法,其特征在于,包括:识别第一新闻的类型,并从标杆新闻集合中选择具有相对应类型的标杆新闻,和/或获取所述第一新闻中的关键词,并从所述标杆新闻集合中选择具有所述关键词的标杆新闻;将所述第一新闻与所述标杆新闻进行比较,得到所述第一新闻与所述标杆新闻的距离;将第二新闻与所述标杆新闻进行比较,得到所述第二新闻与所述标杆新闻的距离;计算所述第一新闻与所述标杆新闻的距离和所述第二新闻与所述标杆新闻的距离之间的距离差,根据所述距离差确定所述第一新闻与所述第二新闻之间的相关性。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510974316.5/,转载请声明来源钻瓜专利网。

同类专利
  • 字符替换方法、系统、计算机设备及计算机可读存储介质-201910553284.X
  • 刘益伟;杨茂星 - 平安科技(深圳)有限公司
  • 2019-06-25 - 2019-11-12 - G06F17/22
  • 本发明实施例提供了一种字符替换方法,包括以下步骤:获取用户输入的N个查询字符以及N个替换字符,其中,所述N个查询字符包括至少两个相同的查询字符,所述N个替换字符中包括至少两个不相同的替换字符;以所述查询字符为查询条件在文本信息中查找是否存在与所述查询字符相匹配的字符;及当存在与所述查询字符匹配的字符时,按照查找到的字符在所述文本信息中的位置,将所述查找到的字符对应替换为所述替换字符。本发明实施例还提供了字符替换系统、计算机设备和计算机可存储介质。本发明实施例可以实现将多个相同的原有字符同时替换为不同的新字符,无需对每一个原有字符都重新进行输入、查找及替换的操作,从而减小字符替换的繁琐程度。
  • 一种新型多尺度注意力机制的序列数据预测系统-201910648749.X
  • 李建欣;周号益;仉尚航;彭杰奇;张帅 - 北京航空航天大学
  • 2019-07-18 - 2019-11-12 - G06F17/22
  • 一种新型多尺度注意力机制的序列数据预测系统,包括结合时间特征编码的序列数据编码模块,多尺度时间特征提取模块,长序列快速预测模块;所述结合时间特征编码的序列数据编码模块对输入序列的序列数据和时间特征进行编码得到新的输入向量;所述多尺度时间特征提取模块对新的输入向量进行切分,然后输入到对应的特征提取结构中,将提取到的不同时间尺度的序列特征进行组合,得到稳定有效的时间序列表示;所述长序列快速预测模块构造初始输入序列,进行数据编码后融合得到预测输出结果。
  • 一种实现远程文本粘贴的方法、设备以及存储介质-201910572459.1
  • 郭敬宇 - 苏州浪潮智能科技有限公司
  • 2019-06-28 - 2019-11-08 - G06F17/22
  • 本发明公开了一种实现远程文本粘贴的方法,包括步骤:获取待粘贴的文本;对文本中的每一个字符进行转换,得到所述每一个字符对应的ASCII码;根据所述ASCII码将所述每一个字符封装成键盘按压事件;将所述每一字符对应的所述键盘按压事件发送至服务端。本发明还公开了一种计算机设备以及可读存储介质。本发明公开的方法能够基于最基础、最通用的RFB协议实现粘贴文本的同步,无需对RFB协议进行任何变种,极具通用性。
  • 一种继承工厂已有word操作规程实现作业信息化的方法-201910692180.7
  • 吴昌议 - 吴昌议
  • 2019-07-30 - 2019-11-08 - G06F17/22
  • 本发明公开了一种继承工厂已有word操作规程实现作业信息化的方法,其特征在于,基于工厂当前已有word操作规程模板,将word操作规程模板按一定的规则规范化,得到规范化的word操作规程模板,然后将规范化的word操作规程模板转化为多个html文档,然后将各个html文档按层次关系组织起来,工厂生产时针对每个生产批次,都复制一份该批次对应的电子模板,用于生产过程数据的记录。该方法可以快速实现工厂生产过程的信息化。
  • 文档图像中的无边框表格解析技术-201910587312.X
  • 徐茂龙;杨鸿健;程晨 - 南京智录信息科技有限公司
  • 2019-06-28 - 2019-11-05 - G06F17/22
  • 本发明涉及一种文档图像中的无边框表格解析方法,所述方法包括步骤:识别出无边框表格区域部分;将所述位置范围内的文本进行合并;根据无边框表格区域和区域内文本相关数据,将文本块进行分行,并获取每一行的文本块数量,将区域中含有最多文本块的行提取出来,并根据顺序切分为列,并根据每列的文本块位置信息获取列的取值范围;计算获取当前列文本块横轴位置数值的最大值、最小值、方差、变动范围、25到75百分位的变动范围。根据上述计算得到的数据判断列中文本的对齐类型;对第一列的左边界值设为0,依次将其右边的所有列的横轴位置坐标相对第一列进行修正,同时进行横向和纵向单元格合并的情况判定和处理。
  • 一种汉字转数字的方法、装置、设备和计算机可读存储介质-201910666996.2
  • 王泽龙 - 广州国音智能科技有限公司
  • 2019-07-23 - 2019-11-05 - G06F17/22
  • 本申请公开了一种汉字转数字的方法、装置、设备和计算机可读存储介质,通过将待转换汉字文本的每个汉字拼音与0~9十个数字的每个数字的拼音两两计算编辑距离,取最小编辑距离对应的数字作为待转换汉字文本的汉字对应的数字输出,不需要在代码上做汉字与数字的映射,节省了数据映射整理的时间,简化了汉字转数字的代码,解决了现有的汉字转数字方法采用在代码上做汉字与数字的映射关系方式,存在整理映射关系耗时长和代码复杂冗长的技术问题。
  • 一种面向通用文本格式的解析方法及工具-201710372929.0
  • 刘帆;木伟民;张云;王伟平 - 中国科学院信息工程研究所
  • 2017-05-24 - 2019-11-05 - G06F17/22
  • 本发明公开了一种面向通用文本格式的解析方法及工具。本方法为:1)对于一待解析数据a,首先将其对应的各种自定义符号导入解析工具中,然后采用指定的文件编码格式读取该待解析数据a;自定义符号包括行分隔符、字段包围符和字段间分隔符;2)解析工具将解析数据a中的自定义符号统一转换文字符串类型;3)解析工具逐个分析所读取的字符,如果该字符及其后面n个字符组成的字符串与行分隔符一致,则根据行分隔符将待解析数据a分割成行数据;4)解析工具分析得到的行数据,根据字段包围符解析出行数据中所有的记录;5)解析工具逐个分析得到的每个记录,根据字段间分隔符解析出每条记录中所有的字段。本发明大大提高了解析效率。
  • 一种文件格式转换方法、系统及相关组件-201910683195.7
  • 徐翔宇;胡雷钧 - 浪潮电子信息产业股份有限公司
  • 2019-07-26 - 2019-11-01 - G06F17/22
  • 本申请公开了一种文件格式转换方法,应用于异构加速平台的主处理器,所述文件格式转换方法包括当接收到格式转换指令时,根据所述格式转换指令确定HEX格式的原文件;将所述原文件传输至所述异构加速平台的协处理器;控制所述协处理器通过运行格式转换算法将所述原文件转换为BIN格式的目标文件;接收所述协处理器传输的所述目标文件以便完成文件格式转换操作。本申请能够在不影响云计算数据中心的运算性能的前提下,提高HEX文件转BIN文件的效率。本申请还公开了一种文件格式转换系统、一种计算机可读存储介质、一种异构加速平台及一种电子设备,具有以上有益效果。
  • 文档比对方法、装置及设备-201810344478.4
  • 丁兴邦;王力显;郎猛 - 北大方正集团有限公司;北京北大方正电子有限公司
  • 2018-04-17 - 2019-10-29 - G06F17/22
  • 本发明提供一种文档比对方法、装置及设备。方法包括:接收第一文档、第二文档;根据第一文档、第二文档分别生成第一小页集合、第二小页集合;基于预设规则,根据第一小页的内容生成与第一小页对应的第一校验码,根据第二小页的内容生成与第二小页对应的第二校验码;获取第一小页与第二小页的对应关系,并比对具有对应关系的第一小页与第二小页的校验码是否相同,若是,则确定第一小页、第二小页内容相同,否则确定第一小页、第二小页的内容不同。本实施例提供的方法、装置及设备无需人工对各个小页是否进行了修改逐一进行比对,就能够确定文档间的差异,从而提高了比对文档差异的效率,同时,还能够提高比对文档差异的准确率。
  • 近似案件的推送方法、装置、计算机设备和存储介质-201910520103.3
  • 叶素兰;窦文伟;潘诗韵;杨凤鑫 - 平安科技(深圳)有限公司
  • 2019-06-17 - 2019-10-29 - G06F17/22
  • 本申请涉及大数据领域中一种近似案件的推送方法、装置、计算机设备和存储介质。所述方法包括:获取当前案件的案件标识,根据所述案件标识提取对应的案件关键信息;利用所述案件关键信息计算所述案件标识对应的当前案件向量;将所述当前案件向量与大数据平台中历史案件向量进行比对,得到所述当前案件与历史案件之间的相似度;当所述相似度达到阈值时,将对应的历史案件标记为近似案件;将所述近似案件的裁决书推送至终端。采用本方法能够有效提高裁决书生成效率。
  • 一种离线表关联方法-201910108125.9
  • 金霞 - 杭州费尔斯通科技有限公司
  • 2019-02-02 - 2019-10-29 - G06F17/22
  • 本发明公开了一种离线表关联方法,步骤包括:创建一个基于spark的python文件模板;将前端页面传递过来的参数进行参数组装、sql拼接,转换成python文件模板所需要的参数;将python文件模板进行参数的替换,替换成sql拼接后的参数,生成一个可执行的python文件;将python文件上传到spark运行的服务器;根据python文件生成一个azkaban任务的zip包,把执行命令和执行文件打到zip包里,并在azkaban服务器生成一个项目;调用azkaban服务器启动项目,从而开始运行任务。本发明能够实现elasticsearch多张表之间的关联;优化了spark执行任务的流程,减少了一些不必要的操作;每次运行spark任务不需要进行打包处理,对任务具有管理和调度功能。
  • 基于大数据的一种深加工数据校验方法-201910481935.9
  • 冼和清;许宏刚;冯谊 - 苏州神州数码捷通科技有限公司
  • 2019-06-04 - 2019-10-25 - G06F17/22
  • 本发明公开了数据检验领域的基于大数据的一种深加工数据校验方法,包括步骤:S1:获取检验前的产品数据信息,定义为第一数据库,第一数据库中的数据顺序排列;获取检验后的产品数据信息,定义为第二数据库,第二数据库中的数据顺序排列;S2;第一数据库中与第二数据库中数据的类型及排列顺序一一对应,记为数据组集;S3:通过数据提取模块分别依序提取第一数据库与第二数据库中对应的数据,记为一组数据;S4:通过数据对比模块比对提取的一组数据并输出检验结果。本发明能够及时发现检验前后产品数据的不同,便于统计。
  • 项目查重方法、装置、设备及存储介质-201910539972.0
  • 崔德冠 - 平安国际智慧城市科技股份有限公司
  • 2019-06-19 - 2019-10-25 - G06F17/22
  • 本发明涉及人工智能,公开一种项目查重方法、装置、设备及存储介质,该方法包括:获取项目文本,将项目文本划分为待测短文本集和待测长文本集;查找待测短文本集对应的基准短文本,并获取其与待测短文本集之间的第一相似度;若第一相似度低于预设相似度阈值,则查找待测长文本集对应的基准长文本并获取其与待测长文本集之间的第二相似度;根据第二相似度获取查重结果,由于是先根据短文本集对应的基准短文本对短文本集进行相似度检测,在获取到的相似度不能判定项目的查重情况时,再通过计算长文本集和基准长文本之间的相似度对待查重项目进行查重结果判定,相较于现有的文本查重方式,使得查重结果更加准确、真实,也提高了文本查重的效率。
  • 逻辑相关问题的处理方法、装置和计算机可读存储介质-201910132575.1
  • 裴信 - 裴信
  • 2019-02-22 - 2019-10-22 - G06F17/22
  • 本发明涉及智能教育领域,公开了一种逻辑相关问题的处理方法、装置和计算机可读存储介质,该方法包括:将包含逻辑内容的完整对象拆分为至少两个子对象;对每一个子对象进行模块化处理,生成至少两个模块化子对象;对所述至少两个模块化子对象进行乱序处理;向用户呈现乱序处理的所述至少两个模块化子对象。本发明方案为在电子设备上的逻辑相关问题的教育教学提供了便利。
  • 一种用于版式文件转换并展示的方法-201910648110.1
  • 何中;蔡亚军;陈明敏;何冉冉;严伟;姚童;戴建峰;徐晓辉 - 江苏中威科技软件系统有限公司
  • 2019-07-18 - 2019-10-22 - G06F17/22
  • 本发明提供了一种用于版式文件转换并展示的方法,包含:版式文件的生成、分布式加载、签批小笔头、水印防泄漏。通过将doc/docx、xls/xlsx、ppt/pptx、jpg、tif、pdf、gif、png、cad、html等文件转换为统一的电子文件,加载文件时,无需安装各类文件的阅读器,通过版式文件阅读器对文件进行统一排版;文件采用目录的方式进行渲染展示,分布式进行文件读取加载;提高客户的体验效果和阅读速度。文件被批示的页面以红色笔头标注出来,方便快速查阅;文件均为远程调用,不做本地缓存,同时文件本身覆盖水印码,保证了文件的安全,防泄漏可追溯。本专利使文件的阅读与签批更为便捷安全,更人性化,大大提升了用户体验。
  • 一种文章的查重方法及装置-201710092911.5
  • 袁玮玮;薛庆元 - 北京焦点新干线信息技术有限公司
  • 2017-02-21 - 2019-10-18 - G06F17/22
  • 本申请提供了一种文章的查重方法及装置,计算待查重文章与每个待对比文章的文章相似距离;根据计算得到的所述待查重文章与每个所述待对比文章的文章相似距离以及所述数据库中存储的所述待对比文章的数量,筛选出预设数量的多个待比对文章;从多个所述待比对文章中,采用文本向量距离算法筛选得到相似文章。解决了现有技术中没有对文章进行查重的方法的问题。
  • 一种数据转换方法及系统-201710687039.9
  • 杨波;杜辉斌;杜骄平;唐启超 - 深圳市贝思科尔软件技术有限公司
  • 2017-08-11 - 2019-10-18 - G06F17/22
  • 本发明适用于数据转换技术改进领域,提供了一种数据转换方法,所述数据转换方法包括以下步骤:A、将EDA工具软件生成的数据文件转换成文字流;B、对生成的每行文字流进行内容进行读取;C、对读取到的重要节点信息进行布尔型标记值;D、判断布尔型标记值是否为真,如是,则进入相应的段落进行数据处理并执行步骤E,如否,则舍弃;E、在段落中提取信息转换为需要的数据格式并存储到自定义数据结构中;F、将自定义数据结构中的内容以中间格式的数据结构保存并输出。具有良好的可读性,便于信息的检索,可以轻松的跨平台应用,支持不同文字不同语种间的信息交互,便于信息的长期保存,适合面向对象的程序开发。
  • 一种基于自然语言处理的文档相似度识别方法及相关设备-201910529190.9
  • 王小鹏;苏宇;沈越 - 平安普惠企业管理有限公司
  • 2019-06-18 - 2019-10-15 - G06F17/22
  • 本发明实施例公开了一种基于自然语言处理的文档相似度识别方法及相关设备,其特征在于,包括:分别以字和词为单位对第一文档进行拆分以获得第一文档包含的多个字和多个词;通过TF‑IDF算法计算第一语言元素库中每一个语言元素的TF‑IDF值,其中,第一语言元素库为根据第一文档包含的多个字和第一文档包含的多个词获得;同理计算第二文档对应的第二语言元素库中每一个语言元素的TF‑IDF值;在根据第一语言元素库中每一个语言元素的TF‑IDF值和第二语言元素库中每一个语言元素的TF‑IDF值确定第一文档与第二文档的相似度。采用本发明实施例,能够更准确地得出第一文档与第二文档之间的相似度关系。
  • 一种面向出版社异地资源联合比对的全文相似性分析方法-201910639608.1
  • 王宁 - 同方知网数字出版技术股份有限公司
  • 2019-07-16 - 2019-10-15 - G06F17/22
  • 本发明公开了一种面向出版社异地资源联合比对的全文相似性分析方法,包括:构建出版机构内容管理系统;建立系统端与多个机构端的比对连接,将待检文献和本地机构资源进行比对,并由机构端反馈比对结果;将多个出版社的比对结果进行融合;生成最终的相似性分析报告。本发明实现出版资源的异地实时混合检测,并支持动态接入各类内容资源,使出版机构在“内容不出社”的模式下参与到文献比对中来,解决了出版资源问题,同时保证了结果的全面可靠性。
  • 点阵一致性判断方法及装置-201610154523.0
  • 栗志超;孟张伟 - 北大方正集团有限公司;北京北大方正电子有限公司
  • 2016-03-17 - 2019-10-15 - G06F17/22
  • 本发明实施例提供一种点阵一致性判断方法及装置。该方法包括:获取栅格图像处理器对目标文件进行第一次解析生成的第一挂网对象信息;依据第一挂网对象信息生成第一码;获取栅格图像处理器对目标文件进行第二次解析生成的第二挂网对象信息;依据第二挂网对象信息生成第二码;比较第一码和第二码,判断栅格图像处理器对目标文件两次处理生成的点阵是否一致。本发明实施例通过栅格图像处理器对同一个目标文件进行两次解析生成第一挂网对象信息和第二挂网对象信息,分别将第一挂网对象信息转换为第一码,将第二挂网对象信息转换为第二码,通过比较第一码和第二码实现了同一PDF文件两次经过栅格图像处理器处理后生成点阵的一致性判断方法。
  • 实验室仪器信息管理系统-201810278792.7
  • 王维民;沈青祁;郑斌;周金广;徐敏;王守城;倪庆旭;唐俊;秦静远 - 中国石化销售有限公司
  • 2018-03-30 - 2019-10-11 - G06F17/22
  • 本发明公开了一种实验室仪器信息管理系统,包括管理服务器和仪器工作站,仪器工作站包括实验室仪器和与实验室仪器连接的上位机,上位机存储有计算机程序,该程序被处理器执行实现原始数据文本转换预设内容格式的分析结果文本,该分析结果文本可被管理服务器接收。本发明实现了实验室仪器数据的自动上传,简化质检人员数据录入工作,提高数据的准确性和合规性,同时针对多类型的仪器,将多格式的文本在仪器工作站直接转换成服务器可接收的文本格式,达到了本地文本转换的目标。
  • 语言预处理断句方法、计算机设备及计算机可读存储介质-201910493707.3
  • 王怡景 - 数译(成都)信息技术有限公司
  • 2019-06-06 - 2019-10-11 - G06F17/22
  • 一种语言预处理断句方法计算机设备及计算机可读存储介质,所述语言预处理断句方法包括:解析待处理文档,获得至少一个子文档;组合所述子文档,获得断句集,所述断句集中包含至少一个断句,所述断句中包含至少一个断句符号;获取所述断句中包含的断句符号,并按照预定顺序排列;按照所述预定顺序循环所述断句集中的所述断句,获取当前断句符号所在的位置;根据断句符号位置前后的字符以及预设规则重新断句,并获得处理集;循环所述处理集,获得结果集。本申请所提供的语言预处理断句方法,对断句进行了优化,实现了最高效的断句方法,思路清晰。同时,保证解析后的句子更具不同的原文语言种类最后呈现完整用于阅读和翻译的句子,具有较高的质量。
  • 一种知识产权编码关键字系统-201910624390.2
  • 毛雨田 - 北京年管家信息科技有限公司
  • 2019-07-11 - 2019-10-11 - G06F17/22
  • 本发明属于计算机信息技术领域,具体涉及一种知识产权编码关键字系统,包括:中央数据库,用于存储知识产权资产,知识产权资产均具有唯一的识别编号;关键词语料库,用于存储关键词语料,且每个关键词均通过识别编号与中央数据库中的知识产权资产唯一对应;关联单元,用于关联关键词语料库和中央数据库;确定单元,用于根据关键词语料库确定目标文档中的目标关键词,以及确定目标关键词所对应的目标知识产权资产的路径;创建生成单元,用于通过关联所述目标知识产权资产的路径至目标文档中的目标关键词,创建生成超链接。通过上述系统为目标关键词提供一个便捷自动的知识产权资产查询渠道,从而方便方便知识产权资产信息的传播。
  • 一种笔画编码结合汉字点阵的形近字分类方法-201611065190.0
  • 邵玉斌;王逍翔 - 昆明理工大学
  • 2016-11-28 - 2019-09-27 - G06F17/22
  • 本发明提供了一种笔画编码结合汉字点阵的形近字分类方法,通过对汉字对应的笔画编码进行统计,以笔画结构出现频率将汉字进行分类生成数据表,每种笔画成分对应包含此成分的汉字集合;然后对集合进行筛选,滤除笔画成分较短和较长的集合,将后者添加到形近字数据库中;对过滤后的汉字集合采用汉字点阵比较的方法进行进一步处理,通过比较同一汉字集合内的汉字的点阵,将相似率较低的汉字滤除,将处理后的汉字集合添加到形近字数据库中;通过以上步骤,就得到了包含大部分汉字的形近字数据库,查询一个汉字的形近字只需要查询其所在的表就可得到它的形近字。本发明提高了形近字分类效率,节约了分类所消耗的时间,获得了较为准确的形近字数据。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top