[发明专利]一种资讯数据处理方法及装置有效
申请号: | 201610313209.2 | 申请日: | 2016-05-12 |
公开(公告)号: | CN107368489B | 公开(公告)日: | 2020-07-03 |
发明(设计)人: | 吴康乐 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/31 |
代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 杨移 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 资讯 数据处理 方法 装置 | ||
本申请公开了一种资讯数据处理方法及装置,用以解决现有技术中,资讯类别对应的关键词可能具有多种语义,从而可能降低在资讯数据中对该关键词的识别结果的可靠性的问题。该方法包括:获取待处理资讯数据;当判定所述待处理资讯数据属于指定资讯类别时,提取所述待处理资讯数据的主题词;将提取出的部分或全部的所述主题词与所述指定资讯类别对应的关键词进行匹配,以从各所述关键词中,确定与至少一个所述主题词匹配成功的关键词。
技术领域
本申请涉及信息技术领域,尤其涉及一种资讯数据处理方法及装置。
背景技术
随着信息技术和互联网技术的迅速发展,人们每天都可以通过互联网获得大量数据,这些数据中很大一部分都是资讯数据。
一般地,可以根据各种资讯数据的主题信息,将各种资讯数据划分为多个资讯类别,比如,财经资讯类别、体育资讯类别等。属于财经资讯类别的各资讯数据的主题信息主要与财经相关,属于体育资讯类别的各资讯数据的主题信息主要与体育相关,等等。
每种资讯类别都对应于一些关键词,这些关键词一般可以是其对应的资讯类别的专用名词,这些专用名词一般常见于属于其对应的资讯类别的资讯数据中,而在不属于其对应的资讯类别的资讯数据中则不常见。比如,财经资讯类别对应的关键词可以是股票名称等,体育资讯类别对应的关键词可以是体育明星姓名等。为了便于用户利用资讯数据,可以将各资讯数据中包含的关键词识别出来,并建立资讯数据与其包含的关键词的关联关系,从而可以使得用户通过检索关键词就能够便利地找到相应的资讯数据。
在现有技术中,一般采用将对于与某一资讯类别的各关键词与资讯数据进行全文匹配的识别方式,确定该资讯数据中包含的关键词。
但是,在实际应用中,某一资讯类别对应的一个关键词可以能具有多种语义,在这多种语义中,一般只有其中一种语义是对应于该资讯类别的,而其他语义可能并非对应于该资讯类别。在这种情况下,可能会降低识别结果的可靠性。
发明内容
本申请实施例提供一种资讯数据处理方法及装置,用以解决现有技术中,资讯类别对应的关键词可能具有多种语义,从而可能降低在资讯数据中对该关键词的识别结果的可靠性的问题。
本申请实施例提供另一种资讯数据处理方法及装置。
本申请实施例采用下述技术方案:
本申请实施例提供的一种资讯数据处理方法,包括:
获取待处理资讯数据;
当判定所述待处理资讯数据属于指定资讯类别时,提取所述待处理资讯数据的主题词;
将提取出的部分或全部的所述主题词与所述指定资讯类别对应的关键词进行匹配,以从各所述关键词中,确定与至少一个所述主题词匹配成功的关键词。
本申请实施例提供的一种资讯数据处理装置,包括:
获取模块,用于获取待处理资讯数据;
判定提取模块,用于当判定所述待处理资讯数据属于指定资讯类别时,提取所述待处理资讯数据的主题词;
匹配模块,用于将提取出的部分或全部的所述主题词与所述指定资讯类别对应的关键词进行匹配,以从各所述关键词中,确定与至少一个所述主题词匹配成功的关键词。
本申请实施例提供的另一种资讯数据处理方法,包括:
获取待处理资讯数据;
当判定所述待处理资讯数据属于财经资讯类别时,提取所述待处理资讯数据的主题词;
将提取出的部分或全部的所述主题词与预定的各股票名称进行匹配,以从所述各股票名称中,确定与至少一个所述主题词匹配成功的股票名称。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610313209.2/2.html,转载请声明来源钻瓜专利网。