[发明专利]一种近义词的获取方法及系统有效

申请号：	201711453916.2	申请日：	2017-12-28
公开（公告）号：	CN108153735B	公开（公告）日：	2021-05-18
发明（设计）人：	谢忠玉;鲍新平;沈一	申请（专利权）人：	北京奇艺世纪科技有限公司
主分类号：	G06F40/284	分类号：	G06F40/284;G06F40/289;G06F40/247
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	王宝筠
地址：	100080 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种近义词获取方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种近义词的获取方法及系统，通过确定指定评价词与指定评价对象在文本中的共现频率，构建共现词矩阵，对共现词矩阵中的多个评价词进行降维处理，得到评价词向量，通过第一相似度计算方式计算评价词向量的第一相似度，确定与指定评价词相似度高于预定数值的候选评价词集合，通过第二相似度计算方式对候选评价词集合进行相似度排序，得到相似度排序结果，通过相似度排序结果，以及候选评价词集合与指定评价词的词性是否相同的判断结果来确定指定评价词的词义。本方案通过两次相似性计算，提高了确定的近义词的精度，同时，通过判断词性是否相同来确定近义词，避免了现有技术中可能出现的词性相反却确定为近义词的情况，准确率提高。

技术领域

本发明涉及网络数据处理技术领域，尤其涉及一种近义词的获取方法及系统。

背景技术

近年来，随着微博等用户自媒体的爆炸式增长，在网络平台上发表观点、评论的用户群体越来越庞大，利用网络挖掘网民意见变得可行。

其中，在挖掘网民意见所讨论的对象的评价词时，不同用户可能通过不同的词表达同一个意见，例如：针对某一个明星的评价词：帅、帅炸，通过不同的词表达该明星帅的意思。

然而，目前，确定不同的词是否表达同一个意思，通常是基于词共现的方式确定两个不同的词是否为关键词，即首先确定针对一个评价对象的一个评价词，然后找出与该评价对象及该评价词共现的词有哪些，确定高频共现词为候选词，从候选词中选取相似性最高的为近义词。

然而，采用这种方式，其精确度较低，例如：有时候共现词在词性上可能不对等，甚至词义相反，这就降低了选取的近义词的准确度。

发明内容

有鉴于此，本发明提供一种近义词获取方法及系统，以解决现有技术中基于词共现的方式确定近义词，准确度较低的问题，其具体方案如下：

一种近义词的获取方法，包括：

确定指定评价词与指定评价对象在文本中的共现频率；

构建共现词矩阵，所述共现词矩阵包括：多个评价对象，多个评价词，以及所述多个评价对象中每个所述评价对象与所述多个评价词中每个所述评价词的共现频率，其中，所述多个评价对象中至少包括所述指定评价对象，所述多个评价词中至少包括所述指定评价词；