[发明专利]一种分析文本属性的方法和装置在审

专利信息
申请号: 201810696200.3 申请日: 2018-06-29
公开(公告)号: CN110728131A 公开(公告)日: 2020-01-24
发明(设计)人: 张之硕 申请(专利权)人: 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
主分类号: G06F40/205 分类号: G06F40/205;G06F16/35
代理公司: 11219 中原信达知识产权代理有限责任公司 代理人: 张一军;李阳
地址: 100195 北京市海淀区杏石口路6*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种分析文本属性的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取样本集;其中,样本集包括评价文本以及属性类别;分析评价文本中词语的词性,统计相同词性对应的词语在所述评价文本中的出现次数,根据评价文本的词频向量以及属性类别,训练神经网络;分析待测评价文本中词语的词性,统计相同词性对应的词语在待测评价文本中的出现次数,得到待测文本的词频向量,导入训练后的神经网络中,以确定待测评价文本的属性类别。该实施方式可以基于词性、词频以及属性类别之间的对应关系,快速获取可适用于全类型的模型,且操作简单、成本低、具有更高的抽象性。
搜索关键词: 文本 词性 属性类别 词频 词语 样本集 向量 计算机技术领域 训练神经网络 方法和装置 快速获取 神经网络 文本属性 分析 统计
【主权项】:
1.一种分析文本属性的方法,其特征在于,包括:/n获取样本集;其中,所述样本集包括评价文本以及属性类别;/n分析所述评价文本中词语的词性,统计相同词性对应的词语在所述评价文本中的出现次数,根据所述评价文本的词频向量以及属性类别,训练神经网络;/n分析待测评价文本中词语的词性,统计相同词性对应的词语在所述待测评价文本中的出现次数,得到所述待测文本的词频向量,导入训练后的神经网络中,以确定所述待测评价文本的属性类别。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810696200.3/,转载请声明来源钻瓜专利网。

同类专利
  • n-gram语言模型读取方法、装置、电子设备及存储介质-201911003725.5
  • 郭震;陈孝良;冯大航;常乐 - 北京声智科技有限公司
  • 2019-10-18 - 2020-02-14 - G06F40/205
  • 一种n‑gram语言模型读取方法,应用于计算机技术领域,包括:将原始语言模型按照元等级进行拆分,得到多个元等级不同的元文法模型,在元等级相邻的两个元文法模型之间建立连接,根据相邻两个元文法模型之间建立的连接关系,读取原始语言模型。本申请还公开了一种n‑gram语言模型读取装置、电子设备及存储介质,按照元等级对语音模型进行拆分和连接,从而按照词元数量对语音模型分别进行读取,减少了读取时内存的占用,降低大语言模型读取的内存占用率,避免同时一次读取整个模型导致的内存占用过大,或无法读取的现象出现。
  • 文本识别方法、计算机可读存储介质和计算机设备-201910982889.0
  • 陈铭良;贾佳亚 - 腾讯云计算(北京)有限责任公司
  • 2019-10-16 - 2020-02-07 - G06F40/205
  • 本申请涉及一种文本识别方法、计算机可读存储介质和计算机设备,所述方法包括:提取待识别文本中的至少两个词语;获取各个词语在语义维度下的词语编码,以及各个词语在至少两个文本分类维度下的词语编码;将各个词语在语义维度下的词语编码,以及各个词语在至少两个文本分类维度下的词语编码进行连接处理,得到目标矩阵;根据目标矩阵,确定待识别文本在各个文本分类维度下的分类概率;根据待识别文本在各个文本分类维度下的分类概率,确定对待识别文本的文本识别结果。本申请提供的方案综合考虑了文本的词语编码的语义信息以及可解释性,并从多个文本识别维度对文本进行判别,使得文本的识别更加准确,从而提高了文本的识别准确率。
  • 主题信息获取方法、装置和电子设备-201610565513.6
  • 赵伟;徐超;王磊;张旭 - 东软集团股份有限公司
  • 2016-07-18 - 2020-02-07 - G06F40/205
  • 本发明提出一种主题信息获取方法、装置和电子设备,其中,该主题信息获取方法,包括以下步骤:提取待分析文本集合的主题,其中,所述主题包括多个主题词;将所述主题与所述待分析文本集合中的文本分别进行匹配,以从所述待分析文本集合中筛选出用于描述所述主题的文本。本发明的主题信息获取方法,能够提高主题信息的获取效率及准确率。
  • 语言模型构建方法、系统、计算机设备及可读存储介质-201910917739.1
  • 石志娟;徐媛 - 平安科技(深圳)有限公司
  • 2019-09-26 - 2020-02-04 - G06F40/205
  • 本发明实施例提供了一种语言模型构建方法,所述方法包括:获取数据样本,并对所述数据样本中的句子进行分类挖掘,将挖掘得到的句子作为数据挖掘的结果;对挖掘出的句子进行句子频率与句子位置统计,根据句子频率与句子位置计算每个句子的重要程度,并根据每个句子的重要程度对挖掘出的句子进行排序;根据排序结果从所述挖掘出的句子中选取分类训练样本,所述分类训练样本用于训练与构建语言模型。本发明实施例由于提高了句子排序准确性,继而提高了分类训练样本的样本质量,通过高质量的分类训练样本训练语言模型,可以有效提升语言模型识别结果的准确度。
  • 用于不同自然语言的自动文档分析-201880028545.X
  • W·M·埃德蒙;D·克劳斯;J·E·布拉德利三世 - 马里兰怡安风险服务有限公司
  • 2018-03-01 - 2020-01-31 - G06F40/205
  • 人工手动处理文档通常生成主观的结果,并且包括人工错误。人工手动分析的成本和相对低的速度使得以许多行业期望的规模、速度和成本执行文档分析实际上是不可能或不可行的。因此,采用客观、准确的基于规则的技术来评估和处理文档可以是有利的。该申请公开了特别适于特定应用(文档宽度的分析)的数据处理装备和方法。该处理可以包括依赖上下文的对文档和文档的子部分的预处理。可以基于相应子部分中的词语计数和词语的常见性来分析子部分。本文公开的装备和方法通过实现对人工手动处理定量改进的结果来对用于提供文档处理的其他自动化技术进行了改进。
  • 一种分析文本属性的方法和装置-201810696200.3
  • 张之硕 - 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
  • 2018-06-29 - 2020-01-24 - G06F40/205
  • 本发明公开了一种分析文本属性的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取样本集;其中,样本集包括评价文本以及属性类别;分析评价文本中词语的词性,统计相同词性对应的词语在所述评价文本中的出现次数,根据评价文本的词频向量以及属性类别,训练神经网络;分析待测评价文本中词语的词性,统计相同词性对应的词语在待测评价文本中的出现次数,得到待测文本的词频向量,导入训练后的神经网络中,以确定待测评价文本的属性类别。该实施方式可以基于词性、词频以及属性类别之间的对应关系,快速获取可适用于全类型的模型,且操作简单、成本低、具有更高的抽象性。
  • 句子级双语对齐方法及系统-201811561745.X
  • 聂镭;李睿;聂颖;郑权;张峰 - 龙马智芯(珠海横琴)科技有限公司
  • 2018-12-20 - 2020-01-21 - G06F40/205
  • 本发明公开了一种句子级双语对齐方法及系统,该方法包括:步骤S1:对待对齐的两文本进行处理,得到第一语句列表和第二语句列表;步骤S2:计算该第一语句列表中的每一个语句与该第二语句列表中的每一个语句的文本相似度;步骤S3:根据该第一语句列表中的语句在该一个文本中的对应语句的位置与该第二语句列表中的语句在该另一个文本中的对应语句的位置对该文本相似度进行修正,得到该第一语句列表中的每一个语句与该第二语句列表中的每一个语句的语句匹配度;步骤S4:根据该第一语句列表中的每一个语句与该第二语句列表中的每一个语句的语句匹配度得到该两文本的语句对齐结果。本发明有利于提高语句对齐效率。
  • 一种用于识别聊天记录中目标内容的方法与系统-201910900122.9
  • 陆晨昱;舒畅;李竹桥;刘尧;李先云;郑思璇;朱婷婷;祁丽华 - 义语智能科技(广州)有限公司
  • 2019-09-23 - 2020-01-17 - G06F40/205
  • 本申请通过一种用于识别聊天记录中目标内容的方法,首先获取待识别的聊天记录,接着基于所述待识别的聊天记录确定多个对话块,其中,每个对话块包括一条待识别的聊天记录以及包括该条聊天记录在内的、预设数目的连续聊天记录,然后将所述多个对话块输入经过训练的神经网络模型,获得每个对话块所对应的每条待识别的聊天记录是否是目标内容的预测值,最后将所述预测值达到预设阈值的待识别的聊天记录确定为目标内容。通过该方法识别聊天记录中的目标内容,适用于快速、高效地识别海量聊天记录中的目标内容,特别是对于上下文有语义关联的聊天记录中目标内容的识别非常有效。
  • 一种汉语句子功能成分分析方法-201710077125.8
  • 赵铁军;曹海龙;王亚楠;徐冰;朱聪慧;杨沐昀;郑德权;马春鹏 - 哈尔滨工业大学
  • 2017-02-13 - 2020-01-17 - G06F40/205
  • 一种汉语句子功能成分分析方法,本发明涉及汉语句子功能成分分析方法。本发明的目的是为了解决现有技术没有考虑汉语句子的功能成分的问题。过程为:一、对训练语料进行处理,对CTB5.0进行转化,转化成带有功能成分标签的形式,进行修正得到修正后的语料;转化成基于字粒度的形式,作为A;二、将A输入句法功能成分分析器进行训练得到汉语句子功能成分分析模型C;三、对纯汉语文本数据进行处理,得到带有功能成分标签的句子,转化成基于字粒度的形式,作为B,将A与B相结合作为最终的训练数据;四、采用汉语句子功能成分分析模型D对待测试汉语句子进行测试,得到测试结果。本发明用于句子功能成分分析领域。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top