[发明专利]利用新词发现投资标的的方法、装置及存储介质在审
申请号: | 201711059221.6 | 申请日: | 2017-11-01 |
公开(公告)号: | CN108038119A | 公开(公告)日: | 2018-05-15 |
发明(设计)人: | 汪伟;罗傲雪;陈一恋;王晓伟 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 于志光;郭梦霞 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 新词 发现 投资 标的 方法 装置 存储 介质 | ||
1.一种利用新词发现投资标的的方法,应用于电子装置,其特征在于,该方法包括:
S1、对语料库中的语料进行预处理,得到语料文本数据,形成语料文本集;
S2、读取一条经过预处理的语料文本,对该语料文本进行分词及去停用词处理,得到该语料文本的多个词段;
S3、对该语料文本相邻的词段进行汇聚,将相邻的词段组合成待定新词,构成该语料文本的待定新词集合;
S4、根据该语料文本中每个待定新词的词频、凝固度及自由度与预设阈值的比较结果,筛选出该语料文本真正的新词;及
S5、计算筛选出的新词与公司名称在语料库中的互信息值,提取互信息值满足预设条件的公司名称及新词作为参考投资标的。
2.如权利要求1所述的利用新词发现投资标的的方法,其特征在于,所述步骤S1中的预处理包括:将语料库中语料的格式统一为文本格式,从语料中去除广告噪声。
3.如权利要求1所述的利用新词发现投资标的的方法,其特征在于,所述对该语料文本进行分词的方法包括:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法及基于词典的分词方法。
4.如权利要求1或2或3所述的利用新词发现投资标的的方法,其特征在于,所述步骤S4包括:
S41、计算该语料文本的每个待定新词的词频,筛选出词频大于第一预设阈值的待定新词;
S42、计算步骤S41筛选出的每个待定新词的凝固度,从中筛选出凝固度大于第二预设阈值的待定新词;及
S43、计算步骤S42筛选出的每个待定新词的自由度,从中筛选出自由度大于第三预设阈值的待定新词作为该语料文本的真正新词。
5.如权利要求4所述的利用新词发现投资标的的方法,其特征在于,所述“计算步骤S42筛选出的每个待定新词的自由度”的步骤包括:
分别计算通过步骤S42筛选出的每个待定新词的左邻字信息熵和右邻字信息熵;及
取每个待定新词的左邻字信息熵和右邻字信息熵中的较小值,作为该待定新词的自由度。
6.一种电子装置,其特征在于,该装置包括:存储器、处理器,所述存储器上存储有可在所述处理器上运行的利用新词发现投资标的的程序,该程序被所述处理器执行时实现如下步骤:
A1、对语料库中的语料进行预处理,得到语料文本数据,形成语料文本集;
A2、读取一条经过预处理的语料文本,对该语料文本进行分词及去停用词处理,得到该语料文本的多个词段;
A3、对该语料文本相邻的词段进行汇聚,将相邻的词段组合成待定新词,构成该语料文本的待定新词集合;
A4、根据该语料文本中每个待定新词的词频、凝固度及自由度与预设阈值的比较结果,筛选出该语料文本真正的新词;及
A5、计算筛选出的新词与公司名称在语料库中的互信息值,提取互信息值满足预设条件的公司名称及新词作为参考投资标的。
7.根据权利要求6所述的电子装置,其特征在于,所述步骤A1中的预处理包括:将语料库中语料的格式统一为文本格式,从新闻语料中去除广告噪声;
所述对该语料文本进行分词的方法包括:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法及基于词典的分词方法。
8.根据权利要求6或7所述的电子装置,其特征在于,所述步骤A4包括:
A41、计算该语料文本的每个待定新词的词频,筛选出词频大于第一预设阈值的待定新词;
A42、计算步骤A41筛选出的每个待定新词的凝固度,从中筛选出凝固度大于第二预设阈值的待定新词;及
A43、计算步骤A42筛选出的每个待定新词的自由度,从中筛选出自由度大于第三预设阈值的待定新词作为该语料文本的真正新词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711059221.6/1.html,转载请声明来源钻瓜专利网。