[发明专利]基于机器学习的大数据处理方法有效
申请号: | 201811039771.6 | 申请日: | 2018-09-06 |
公开(公告)号: | CN109214004B | 公开(公告)日: | 2019-11-05 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 贵州航天云网科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/33;G06N3/04 |
代理公司: | 北京汇捷知识产权代理事务所(普通合伙) 11531 | 代理人: | 马金华 |
地址: | 550000 贵州省贵阳市贵阳国家高新技术产*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于机器学习的大数据处理方法,包括:给定一个检索语句,使用通用的停用词表对初始检索中的词进行过滤,保留有意义的检索词;使用语义块模型对词汇进行语义向量表示;在语义向量的基础上针对每个初始检索词采用余弦相似度从其它词汇中找出与之相似度最接近的多个词,作为扩展检索词;使用初始检索中对应的扩展检索词在初始检索语句中进行替换,将新生成的检索词序列作为扩展检索语句;根据扩展检索词的排列组合得到不同表达形式的扩展检索语句。本发明改进了MAPRUDUCE的并行框架,更好地适应文本数据挖掘的需要;并且针对社交文本的不规范特点,利用语义向量对文本数据进行有效表示和分析,适用于各种规模的社交文本挖掘分析和计算。 | ||
搜索关键词: | 检索词 检索语句 语义向量 基于机器 数据处理 词汇 检索 文本数据挖掘 词表 余弦相似度 并行框架 排列组合 文本数据 文本挖掘 有效表示 语义 通用的 相似度 停用 过滤 替换 分析 文本 学习 保留 改进 | ||
【主权项】:
1.一种基于机器学习的大数据处理方法,其特征在于,包括:Stepl:给定一个检索语句,使用通用的停用词表对初始检索中的词进行过滤,保留有意义的检索词;Step2:使用语义块模型对词汇进行语义向量表示;在语义向量的基础上针对每个初始检索词采用余弦相似度从其它词汇中找出与之相似度最接近的多个词,作为扩展检索词;Step3:使用初始检索中对应的扩展检索词在初始检索语句中进行替换,将新生成的检索词序列作为扩展检索语句;根据扩展检索词的排列组合得到不同表达形式的扩展检索语句;Step4:将文本向量模型应用于文档摘要检索,具体过程为:4.1在得到多个文档文本后,将每个文本分解为语句;以标点分隔符,对所有文档中的语句进行切分操作,将所有语句作为一个新的检索库;4.2:对摘要进行检索:第一次检索采用与文档检索中相同的检索扩展检索,使用语义向量扩展词组成的扩展检索语句通过预定义搜索引擎工具对语句进行检索,得到语句的排序结果RankE;第二次检索采用文本表示模型,将检索语句作为目标文本,检索库中的语句作为待比较文本,并分别对所有文本进行语义向量,并计算目标文本与待比较文本之间的相似度,得到相似度的排序结果RankS;4.3:通过线性组合的方式,综合两次排序结果,得到最终的重排序结果:Rank=α×RankEU+(1‑α)×RankSU其中,RankEU和RankSU分别表示RankE和RankS归一化后的排序得分,α为线性组合参数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州航天云网科技有限公司,未经贵州航天云网科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811039771.6/,转载请声明来源钻瓜专利网。