[发明专利]利用新词发现投资标的的方法、装置及存储介质在审
申请号: | 201711059221.6 | 申请日: | 2017-11-01 |
公开(公告)号: | CN108038119A | 公开(公告)日: | 2018-05-15 |
发明(设计)人: | 汪伟;罗傲雪;陈一恋;王晓伟 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 于志光;郭梦霞 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 新词 发现 投资 标的 方法 装置 存储 介质 | ||
本发明提出一种利用新词发现投资标的的方法,包括:对语料库中的语料进行预处理,得到语料文本数据;读取经过预处理的语料文本,对该语料文本进行分词及去停用词处理,得到该语料文本的多个词段;对该语料文本相邻的词段进行汇聚,将相邻的词段组合成待定新词;根据该语料文本中每个待定新词的词频、凝固度及自由度与预设阈值的比较结果,筛选出该语料文本真正的新词;及,计算筛选出的新词与公司名称在语料库中的互信息值,提取互信息值满足预设条件的公司名称及新词作为参考投资标的。本发明还提出一种电子装置及计算机可读存储介质。利用本发明从新闻语料中筛选出的新词提取投资标的,提高投资效率及准确率。
技术领域
本发明涉及计算机技术领域,尤其涉及一种利用新词发现投资标的的方法、电子装置及计算机可读存储介质。
背景技术
目前,在观察投资标的角度上,投资者缺乏对投资对象与热点主题的关联的观察,而这个观察可以在一定程度上提高对投资标的的业务规划、研发重点、业务增长、原料需求、团队建设等方面的预期认识。
随着网络的普及,每个新闻网站每天有成千上万条新闻,并且新闻会实时更新。如果能从海量的新闻语料中,提取并分析出当前市场的热点主题以及热点主题所涉及的企业,那么从投资者的角度来说,就可以得到投资标的企业的相关规划、研发方向、或潜在需求,进而发现商机、抢占商机。因此,如何从新闻语料中提取并分析新词,并利用从新闻语料中提取的新词发现投资标的是急需解决的问题。
发明内容
本发明提供一种利用新词发现投资标的的方法、电子装置及计算机可读存储介质,其主要目的在于通过从新闻语料中筛选并分析新词,并利用从新闻语料中筛选出的新词提取投资标的。
为实现上述目的,本发明提供一种电子装置,该装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的利用新词发现投资标的的程序,该程序被所述处理器执行时实现如下步骤:
A1、对语料库中的语料进行预处理,得到语料文本数据,形成语料文本集;
A2、读取一条经过预处理的语料文本,对该语料文本进行分词及去停用词处理,得到该语料文本的多个词段;
A3、对该语料文本相邻的词段进行汇聚,将相邻的词段组合成待定新词,构成该语料文本的待定新词集合;
A4、根据该语料文本中每个待定新词的词频、凝固度及自由度与预设阈值的比较结果,筛选出该语料文本真正的新词;及
A5、计算筛选出的新词与公司名称在语料库中的互信息值,提取互信息值满足预设条件的公司名称及新词作为参考投资标的。
优选地,所述步骤A4包括:
A41、计算该语料文本的每个待定新词的词频,筛选出词频大于第一预设阈值的待定新词;
A42、计算步骤A41筛选出的每个待定新词的凝固度,从中筛选出凝固度大于第二预设阈值的待定新词;及
A43、计算步骤A42筛选出的每个待定新词的自由度,从中筛选出自由度大于第三预设阈值的待定新词作为该语料文本的真正新词。
优选地,所述“计算步骤A42筛选出的每个待定新词的自由度”的步骤包括:
分别计算通过步骤A42筛选出的每个待定新词的左邻字信息熵和右邻字信息熵;及
取每个待定新词的左邻字信息熵和右邻字信息熵中的较小值,作为该新词的自由度。
此外,为实现上述目的,本发明还提供一种利用新词发现投资标的的方法,该方法包括:
S1、对语料库中的语料进行预处理,得到语料文本数据,形成语料文本集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711059221.6/2.html,转载请声明来源钻瓜专利网。