[发明专利]基于机器学习的大数据处理方法有效

申请号：	201811039771.6	申请日：	2018-09-06
公开（公告）号：	CN109214004B	公开（公告）日：	2019-11-05
发明（设计）人：	不公告发明人	申请（专利权）人：	贵州航天云网科技有限公司
主分类号：	G06F17/27	分类号：	G06F17/27;G06F16/33;G06N3/04
代理公司：	北京汇捷知识产权代理事务所(普通合伙) 11531	代理人：	马金华
地址：	550000 贵州省贵阳市贵阳国家高新技术产***	国省代码：	贵州;52
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了一种基于机器学习的大数据处理方法，包括：给定一个检索语句，使用通用的停用词表对初始检索中的词进行过滤，保留有意义的检索词；使用语义块模型对词汇进行语义向量表示；在语义向量的基础上针对每个初始检索词采用余弦相似度从其它词汇中找出与之相似度最接近的多个词，作为扩展检索词；使用初始检索中对应的扩展检索词在初始检索语句中进行替换，将新生成的检索词序列作为扩展检索语句；根据扩展检索词的排列组合得到不同表达形式的扩展检索语句。本发明改进了MAPRUDUCE的并行框架，更好地适应文本数据挖掘的需要；并且针对社交文本的不规范特点，利用语义向量对文本数据进行有效表示和分析，适用于各种规模的社交文本挖掘分析和计算。
搜索关键词：	检索词检索语句语义向量基于机器数据处理词汇检索文本数据挖掘词表余弦相似度并行框架排列组合文本数据文本挖掘有效表示语义通用的相似度停用过滤替换分析文本学习保留改进
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于机器学习的大数据处理方法，其特征在于，包括：Stepl：给定一个检索语句，使用通用的停用词表对初始检索中的词进行过滤，保留有意义的检索词；Step2：使用语义块模型对词汇进行语义向量表示；在语义向量的基础上针对每个初始检索词采用余弦相似度从其它词汇中找出与之相似度最接近的多个词，作为扩展检索词；Step3：使用初始检索中对应的扩展检索词在初始检索语句中进行替换，将新生成的检索词序列作为扩展检索语句；根据扩展检索词的排列组合得到不同表达形式的扩展检索语句；Step4：将文本向量模型应用于文档摘要检索，具体过程为：4.1在得到多个文档文本后，将每个文本分解为语句；以标点分隔符，对所有文档中的语句进行切分操作，将所有语句作为一个新的检索库；4.2：对摘要进行检索：第一次检索采用与文档检索中相同的检索扩展检索，使用语义向量扩展词组成的扩展检索语句通过预定义搜索引擎工具对语句进行检索，得到语句的排序结果Rank_E；第二次检索采用文本表示模型，将检索语句作为目标文本，检索库中的语句作为待比较文本，并分别对所有文本进行语义向量，并计算目标文本与待比较文本之间的相似度，得到相似度的排序结果Rank_S；4.3：通过线性组合的方式，综合两次排序结果，得到最终的重排序结果：Rank＝α×Rank_EU+(1‑α)×Rank_SU其中，Rank_EU和Rank_SU分别表示Rank_E和Rank_S归一化后的排序得分，α为线性组合参数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于贵州航天云网科技有限公司，未经贵州航天云网科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811039771.6/，转载请声明来源钻瓜专利网。

上一篇：基于多层注意力机制的循环神经网络生成标题的方法
下一篇：一种基于中文分词的线索提取方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于机器学习的大数据处理方法有效

专利文献下载