[发明专利]一种基于大数据技术的电子病历文本解析闭环方法在审

专利信息
申请号: 201811578717.9 申请日: 2018-12-24
公开(公告)号: CN109657062A 公开(公告)日: 2019-04-19
发明(设计)人: 王晔;张敬谊;李光亚;桑伟毅;姜峰;丁海明;路平 申请(专利权)人: 万达信息股份有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F16/36;G16H10/60
代理公司: 上海申汇专利代理有限公司 31001 代理人: 翁若莹;柏子雵
地址: 200233 上海市*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于大数据技术的电子病历文本解析闭环方法,从高频词探查和粗分词典的构建出发提出了从病历文本探查到命名实体识别、词语类别标注的电子病历文本解析闭环设计,获得包含更多未登陆词的字典,进而电子病历分词更为准确,词向量的计算也随之更准确,这样,更多的词可以被标注类别,达到提高命名实体识别准确率的实际效果,是对于目前医疗文本数据的结构化处理大多依赖通用分词工具或医学知识库,而通用分词工具对专业术语的识别效果并不理想、且国内的中文医学术语标准化进程不足的问题提供了有效解决方案,为中文电子病历文本解析提供了创新思路,对深入研究医疗卫生领域信息化处理,提高医疗卫生智能化信息服务具有重要意义。
搜索关键词: 电子病历 文本解析 分词 闭环 探查 命名实体 大数据 标注 医疗卫生领域 标准化进程 结构化处理 医学知识库 闭环设计 创新思路 词语类别 实际效果 文本数据 问题提供 信息服务 医疗卫生 医学术语 有效解决 重要意义 专业术语 通用 词向量 高频词 信息化 智能化 中文 准确率 构建 病历 字典 登陆 文本 医疗 研究
【主权项】:
1.一种基于大数据技术的电子病历文本解析闭环方法,其特征在于,包括以下步骤:步骤1、由已登录的行业术语组成粗分词典,由已登录的行业术语及命名实体组成精确分词词典,命名实体为医疗领域所使用的不常见的、不能穷举的词;步骤2、计算精确分词词典中各词的词向量,对词向量进行聚类分析,为没有标准的不同类别的词向量所对应的词加上不同的标签,由带有标签的词及其对应的标签组成带标签的词语训练集步骤3、基于粗分字典利用高频词探查技术探查对电子病历文本进行高频词探查,发现电子病历文本中粗分词典已登录的行业术语及未登录的行业术语;以带标签的词语训练集对条件随机场进行训练,使用训练后的条件随机场识别出电子病历文本中精确分词词典已登录的命名实体及精确分词词典未登录的命名实体;步骤4、将上一步得到的未登录的行业术语及未登录的命名实体补充入精确分词词典中,并将上一步得到的未登录的行业术语补充入粗分词典中,形成更新后的粗分词典及精确分词词典后返回步骤2。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于万达信息股份有限公司,未经万达信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811578717.9/,转载请声明来源钻瓜专利网。

同类专利
  • 一种基于粒度计算的信息分类方法-201910547137.1
  • 肖清林 - 厦门美域中央信息科技有限公司
  • 2019-06-24 - 2019-11-12 - G06F16/35
  • 一种基于粒度计算的信息分类方法,包括以下步骤:获取信息;进行分词处理并获得词汇集合;进行词性标注和词义标注;根据预先存储的各类别信息,从词汇集合中获得与其相匹配的类别词汇;基于粒度计算确定词汇集合中的每一个类别词汇的权重;确定词汇集合中包含的所有类别词汇所属的目标类别信息;基于粒度计算确定每一个目标类别信息的权重;根据每一个目标类别信息的权重,确定该信息所属的至少一个类目;判断该信息与各所属类目的概率是否大于预设阈值。本发明基于粒度计算来进行信息分类,优化了信息分类方法,操作简便,分类效率高,分类准确度高,省时省力。
  • 一种基于朴素贝叶斯模型的文本分类方法-201910547226.6
  • 肖清林 - 厦门美域中央信息科技有限公司
  • 2019-06-24 - 2019-11-12 - G06F16/35
  • 一种基于朴素贝叶斯模型的文本分类方法,方法步骤包括:收集样本数据,构建训练集和验证集;选出常见的信息关键词,确定特征属性;建立朴素贝叶斯模型;利用训练集对朴素贝叶斯模型进行训练;利用验证集对训练结果进行验证,并校正完善;模型应用。本发明在朴素贝叶斯模型的基础上,对文本进行分类,提高了分类工作准确性和效率性,降低了工作人员的工作量,保证了工作的顺利进行。
  • 文章管理方法、装置、计算机设备和存储介质-201910609886.2
  • 陈姗婷;李泓格;张杰 - 深圳壹账通智能科技有限公司
  • 2019-07-08 - 2019-11-12 - G06F16/35
  • 本申请涉及数据分析领域,特别涉及一种文章管理方法、装置、计算机设备和存储介质。所述方法包括:获取待处理文章,待处理文章携带发表时间;从待处理文章中识别出第一主体关键词;将待处理文章输入训练好的情感评分模型中,得到待处理文章对第一主体关键词对应的情感分值;提取待处理文章的内容关键词,获取内容关键词对应的分类标签,将分类标签添加到待处理文章中;将添加分类标签后的待处理文章、待处理文章对第一主体关键词的情感分值以及发表时间对应保存。采用本方法能够提高文章管理效率。
  • 一种适应性情感分析系统及其方法-201910728857.8
  • 庄子琪;汉斯·乌思克尔特;艾人龙 - 深巨科技(北京)有限公司
  • 2019-08-08 - 2019-11-12 - G06F16/35
  • 一种适应性情感分析系统及其方法,包括包括用于情感分析的终端,所述用于情感分析的终端中包括方面提取模块和情感极性分类模块;所述方面提取模块用于标识要进行情感分析的文本中的方面;所述情感极性分类模块对每个识别出的情感极性进行分类。所述方面提取模块包括有监督模式的方面提取子模块和无监督模式的方面提取子模块;并结合其它的方法和模块有效避免了现有技术中的情感分析方法通常过于简单化、未能提供精确的解决方案和对文本文件中包含的意见数据的细粒度分析的缺陷。
  • 语句处理方法、装置及服务器和存储介质-201910731237.X
  • 周辉阳 - 腾讯科技(深圳)有限公司
  • 2019-08-08 - 2019-11-12 - G06F16/35
  • 本申请公开了一种语句处理方法、装置、系统及一种服务器和计算机可读存储介质,该方法包括:对语料库中的每个候选语句在所述语料库中进行召回,得到每个所述候选语句对应的召回结果;计算每个语句对中两个语句之间的语义相似度作为第一语义相似度;其中,每个所述语句对包括所述候选语句和所述候选语句对应的召回结果;基于所述第一语义相似度对所述语料库进行聚类得到聚类结果,并确定所述聚类结果中每个类别的响应结果。由此可见,本申请提供的语句处理方法,提高了语句处理效率和语料库中语句聚类的准确度。
  • 一种基于LSTM卷积神经网络的多标签文本分类方法-201910735892.2
  • 张潘頔;范科峰;赵晓莺;孙齐锋;李婧欣 - 中国电子技术标准化研究院;西安电子科技大学
  • 2019-08-09 - 2019-11-12 - G06F16/35
  • 本发明公开了一种基于LSTM卷积神经网络的多标签文本分类方法,包括文本预处理、文本特征提取以及输出文本标签。本发明的有益效果是:该算法可通过word2vec算法进行文本预处理,将原始文本数据转化为单词的局部特征,然后再将单词的局部特征输入到卷积神经网络中,进行文本特征提取,计算文本特征向量,最后将文本特征向量作为先验知识输入到LSTM循环神经网络中,预测标签序列,计算最终的文本标签,得到分类结果。与现有技术相比,本发明克服了传统方法忽略标签之间的相关性和无法提取局部语义信息的缺点,既能够提取高阶文本特征,又能够处理长文本序列,同时去除无用信息,保留有效信息,从而增强了分类结果的准确性和有效性。
  • 基于知识库和深度学习的用户查询意图理解方法及系统-201910748929.5
  • 叶正;潘申龄 - 深圳市思拓智联科技有限公司
  • 2019-08-14 - 2019-11-12 - G06F16/35
  • 本发明公开了一种基于知识库和深度学习的用户查询意图理解方法;本发明还公开了一种基于知识库和深度学习的用户查询意图理解系统;本发明的有益效果是:仅需要标注少量的种子查询语句,避免了人工去标注大量的样本数据;利用目前最全面的半结构化知识库‑维基百科,爬取其中与意图领域相关的所有概念,并以这些概念集合作为意图表示的工具,最大程度地保证覆盖查询语句中的概念特征;利用深度学习模型进行查询语句和维基概念的相似度匹配,以卷积神经网络(CNN)和长短期记忆网络(LSTM)提取文本的语义向量,相比于词袋法,该方法抽取的语义向量具有低纬度的特点,并有更加强大的语义特征表达能力。
  • 一种用于中文新闻突发事件的文本分类与抽取方法-201811202156.2
  • 滕辉;龙飞 - 中国搜索信息科技股份有限公司
  • 2018-10-16 - 2019-11-12 - G06F16/35
  • 本发明公开了一种用于中文新闻突发事件的文本分类与抽取方法,属于自然语言处理领域。本发明针对新闻文本分类,采用了基于对标题和内容信息的联合表征,并将词性对文本分类的贡献度融入到传统的TF‑IDF算法中,并作为Word2Vec词向量的权重进一步生成短文本向量,从而避免了因单一利用标题或内容引起的信息缺失和文本词汇词性重要性不同而导致的分类准确率降低的问题;最后,采用基于事件实例驱动的新闻突发事件的抽取方法抽取事件实例,不仅克服了正反例失衡以及数据稀疏问题,而且解决了预先定义事件类别的局限性,实现了事件抽取,方便新闻工作人员、舆情分析人员进一步利用事件抽取结果快速分析新闻。
  • 一种基于数据支持的应用系统构建方法及装置-201510347762.3
  • 张浩;陆军;蒋宏飞 - 阿里巴巴集团控股有限公司
  • 2015-06-19 - 2019-11-12 - G06F16/35
  • 本申请涉及计算机技术领域,尤其涉及一种基于数据支持的应用系统构建方法及装置,用以解决当用于构建应用系统的数据的规模较大时,会增加系统资源的占用,降低应用系统的构建效率的问题。本申请实施例提供的应用系统构建方法包括:根据用于构建应用系统的文本数据中各样本点的属性信息,将文本数据划分为多个样本点集合;针对每一个样本点集合,从该样本点集合中选取最少数目的样本点,使该最少数目的样本点的词序列覆盖率高于设定阈值;采用选取的每一个样本点集合中的样本点构建应用系统。采用本申请实施例,可以从大规模海量数据中精选出对应用系统具有价值的小部分数据来构建应用系统,从而减少占用的系统资源,提高应用系统构建效率。
  • 使用从文档提取的信息来标识关系-201510328707.X
  • 纪蕾;陈正;王仲远;闫峻;D·梅耶宗;W·李 - 微软技术许可有限责任公司
  • 2015-06-12 - 2019-11-12 - G06F16/35
  • 本申请涉及使用从文档提取的信息来标识关系。一些实现提供了从各文档中挖掘关系信息的技术和装置。例如,在一些实现中,可以接收包括表格的结构化数据。可以作出表格的第一部分包括第一类型的数据且表格的第二部分包括第二类型的数据的确定。表格的第一部分的第一内容与表格的第二部分的第二内容之间的关系可以被确定。表格的第一部分的第一内容与表格的第二部分的第二内容之间的关系可以根据新近度被排名并被存储以创建所存储的关系。可以基于一个或多个搜索项来搜索所存储的关系。可以显示基于对所存储的关系进行搜索的搜索结果。可以根据与每个所存储的关系相关联的排名来排序搜索结果。
  • 一种基于深度学习的中文自然语言处理方法-201810387340.2
  • 姜龙 - 上海意仕腾教育科技有限公司
  • 2018-04-26 - 2019-11-08 - G06F16/35
  • 本发明涉及一种基于深度学习的中文自然语言处理方法,服务器包括模型调配模块、数据切片模块、数据清洗模块、模型训练模块、模型数据库,模型调配模块包括人机交互界面、操作调配模块,模型训练模块包括通用数学算法模块、解码算法模块、混合协调算法模块、深度分类模块,包括配置参数、输入训练数据、训练数据、生成定制模型、预测原始文本等过程。本发明采用机器学习训练生成的中文深度神经网络模型完成中文自然语言处理任务,具有智能化机器学习的特点。
  • 一种DPI数据分类方法及系统-201910724880.X
  • 王峰;高兆庆;戴吉秋;林志生;路国平 - 北京智数时空科技有限公司
  • 2019-08-07 - 2019-11-08 - G06F16/35
  • 本发明提供了一种DPI数据分类方法及系统。本发明提供的DPI数据分类方法包含N‑gram特征向量生成,语义特征向量生成和基于不同特征表示的协同训练。本发明提出的DPI数据分类系统,包含数据预处理模块、分类模型协同训练模块以及分类结果预测模块。本发明提供的DPI数据分类方法及系统,可以在仅有少量标注数据的条件下,借助大量未标注数据实现DPI数据分类,降低人工标注成本的同时,提高DPI数据分类效果。
  • 基于图的主题描述词预测及排序方法-201611089639.7
  • 鲁伟明;刘佳卉;庄越挺;吴飞;魏宝刚 - 浙江大学
  • 2016-12-01 - 2019-11-08 - G06F16/35
  • 本发明公开了一种基于图的主题描述词预测及排序方法。首先,将主题描述词的预测问题转化为一个二部图的预测问题,主题词与描述词为图的两个互不相交的子集,不同集合的顶点之间边的关系即为主题词和描述词之间的关系。再利用图的张量积方法将二部图的预测问题转化为顶点标签的传播问题。然后利用矩阵的分解、特征值矩阵等方法降低矩阵的秩,解决预测过程中的计算瓶颈,同时需要对主题词及描述词数据进行聚类及过滤,再构造训练集对主题词进行描述词预测,接着,利用SVM‐rank的排序方法对预测结果进行排序,最后对排序结果进行二次层次聚类,类簇中所有描述词的平均得分作为该类簇的排序得分,从而得到最后的关于这个主题的描述词序列。
  • 一种基于分层隐变量模型的新闻推荐方法-201610897806.4
  • 洪文兴;纪幼纯;郑晓晴 - 厦门大学
  • 2016-10-14 - 2019-11-08 - G06F16/35
  • 本发明公开了一种基于分层隐变量模型的新闻推荐方法,先从各大门户网站抽取不同类型的新闻,然后根据新闻的标签,提取新闻特征,对于系统注册用户,提取用户显式特征及隐式特征构成用户特征,根据用户特征和新闻特征,对用户和新闻进行聚类,对聚类之后的新闻和用户采用不同的隐变量模型,预测用户对新闻的评分,再选出评分最高的若干条条新闻,给用户推荐个性化新闻。
  • 场景分类方法、装置、存储介质及其电子设备-201810379722.0
  • 王颖帅;李晓霞;苗诗雨 - 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
  • 2018-04-25 - 2019-11-05 - G06F16/35
  • 本公开提出一种场景分类方法、装置以及存储介质。该场景分类方法包括对用户输入的文本进行预处理;基于扩展词库对经预处理的文本进行分词以生成语料;将语料转换为向量;以及使用卷积神经网络模型对向量进行处理以获得与文本对应的场景分类的概率。本公开的方法和装置可以解决现有技术中的NLP场景分类方案效率低下、无法满足用户个性化需求的问题,向量表示更准确,结合机器学习、深度学习、自然语言处理,提高了分类效率,可以准确满足用户的个性化需求,使电商网站用户能够更好地筛选自己喜欢的商品,获得更好的用户体验。
  • 基于solr的分类索引方法、装置、设备及存储介质-201910524732.3
  • 王建华 - 平安科技(深圳)有限公司
  • 2019-06-18 - 2019-11-05 - G06F16/35
  • 本发明涉及人工智能领域,公开了基于solr的分类索引方法、装置、设备及存储介质,能够使用自然语言处理技术分析服务器数据库中文件的关键信息并基于文件的关键信息对文件进行分类,提高了检索效率。本发明方法包括:获取solr数据库中的目标文件以及预置文本分类模型;通过预置文本分类模型分析目标文件的关键信息;根据目标文件的关键信息设置目标文件的目标标签;通过solr数据存储结构将目标标签与目标文件关联;当检测到用户的检索指令时,根据检索指令携带的目标标签在检索结果中显示目标文件。
  • 识别中文情感的方法及装置、计算机设备、存储介质-201910534905.X
  • 张师琲 - 平安科技(深圳)有限公司
  • 2019-06-20 - 2019-11-05 - G06F16/35
  • 本发明实施例提供了一种识别中文情感的方法及装置、计算机设备、存储介质。一方面,该方法包括:接收待识别的目标中文文本;对所述目标中文文本进行分词,计算各个分词的特征向量;将所述特征向量输入到情感识别模型,其中,所述情感识别模型是采用贝叶斯算法和卡方特征监测算法训练得到的;使用所述情感识别模型识别所述目标中文文本的情感属性。通过本发明,解决了现有技术中中文情感识别率低的技术问题,提高了情感的识别率,提高了机器分析中文文本的效率。
  • 一种基于遗传算法的信息分类方法-201910542356.0
  • 肖清林 - 厦门美域中央信息科技有限公司
  • 2019-06-21 - 2019-11-05 - G06F16/35
  • 本发明提供了一种基于遗传算法的信息分类方法,包括以下步骤:获取待分类信息;根据遗传算法训练信息分类模型,从所述待分类信息中提取关键词信息集,所述关键词信息集包括至少一个关键词信息;根据所述关键词信息集,以及预设的关键词信息集与类别信息的对应关系,匹配所述关键词信息集对应的类别信息;根据匹配出的类别信息对所述待分类信息进行分类。本发明提出一种基于遗传算法的信息分类方法,极大地提高了分类处理的效率,缩短了分析的周期。
  • 一种数据打标签分类方法、装置、终端及存储介质-201910556460.5
  • 孙瑛瑛;陈生;闫刚;楚国庆;金竹;刘洋 - 北京清博大数据科技有限公司
  • 2019-06-25 - 2019-11-05 - G06F16/35
  • 本发明公开了一种数据打标签分类方法、装置、终端及存储介质,该方法包括:对已打标签文本进行预处理,分别生成词向量训练集和BERT语言训练集;分别通过所述词向量训练集对多种神经网络模型中的每种进行训练,且通过所述BERT语言训练集对BERT分类模型进行训练;根据训练结果确定融合模型;根据所述融合模型对目标数据进行打标签分类。本发明提供的数据打标签分类方法、装置、终端及存储介质,可以对海量数据进行打标签分类,提高了分类的准确性。
  • 一种对长文本生成特征向量实现分类的系统-201910608140.X
  • 龙凌云;张华 - 上海鸿翼软件技术股份有限公司
  • 2019-07-08 - 2019-11-05 - G06F16/35
  • 本发明涉及一种对长文本生成特征向量实现分类的系统,包括:数据预处理模块、计算词向量模块,高维聚类模块,长文本分类模块。通过数据预处理模块,删除冗余无效数据,减少数据复杂度与处理维度,提高性能及结果精确度。计算词向量模块基于改进的动态维度的Skip‑Gram算法,计算词向量,然后通过高维聚类模块,对词向量进行聚类。长文本分类模块根据聚类结果,实现对长文本的分类。
  • 专家影响力的生成方法、专家推荐方法及电子设备-201910619736.X
  • 范厚华;王向黎;卢荡 - 深圳传世智慧科技有限公司
  • 2019-07-10 - 2019-11-05 - G06F16/35
  • 本发明涉及数据挖掘技术领域,尤其涉及一种专家影响力的生成方法、专家推荐方法及电子设备。该专家影响力的生成方法包括:获取专家的网络影响力,所述网络影响力包括负面影响力和正面影响力;获取所述专家的专家经验;根据所述负面影响力、所述正面影响力以及所述专家经验生成专家影响力。该实施方式从多角度收集专家信息以及从多角度生成专家影响力,并且基于服务内容所属的行业和专家领域,以及专家影响力确定推荐的专家,从而提高了评价专家影响力时的客观性和专家推荐的准确率。
  • 基于知识图谱的舆情关联分析方法及系统-201910666645.1
  • 刘春阳;陈志鹏;张旭;王鹏;张翔宇 - 国家计算机网络与信息安全管理中心
  • 2019-07-23 - 2019-11-05 - G06F16/35
  • 本发明公开了一种基于知识图谱的舆情关联分析方法,包括:提取互联网舆情知识中实体的属性和关系,基于知识图谱构建舆情业务知识库;确定需要关联分析的多个相同或不同类型的实体,采用相交、合并或者消减的方式对多个相同或不同类型的实体进行组合;确定多个相同或不同类型的实体每种组合方式进行关联分析的结果构成,得到分析结果。本发明还提供一种基于知识图谱的舆情关联分析系统。本发明可以实现包括特定人物、特定组织、特定事件、特定专题等在内的相同类型或不同类型知识的关联分析,并实现关联实体的多维度深度分析和关联挖掘,帮助业务用户准确掌握各类不同群体的关联情况,以及关联实体的全方位智能分析结果,进而辅助决策。
  • 一种基于SVM的习题自动分类方法-201910704864.4
  • 李廷会;李其娜;李顺;黄荟霖 - 广西师范大学
  • 2019-07-31 - 2019-11-05 - G06F16/35
  • 本发明公开了一种基于SVM的习题自动分类方法,其特征在于,包括以下步骤:(1)习题类型选择和类别标注;(2)习题文本预处理;(3)划分;(4)构建TF‑IDF词向量空间模型;(5)采用SVM构造习题分类器;(6)评价指标。这种方法对未知类别的新习题样本进行自动归类,提高习题分类精度,有利于学习者通过章节习题巩固阶段性所学知识点,查漏补缺,提高学习效率。
  • 基于CNN-SVM-KNN组合模型的文本分类方法-201910718426.3
  • 郑文斌;凤雷;刘冰;付平;孙媛媛;石金龙;叶俊涛;王天城;魏明晨;徐明珠;吴瑞东 - 哈尔滨工业大学
  • 2019-08-05 - 2019-11-05 - G06F16/35
  • 基于CNN‑SVM‑KNN组合模型的文本分类方法,本发明涉及基于组合模型的文本分类方法。本发明的目的是为了解决现有方法文本分类准确率低的问题。具体过程为:1:文本预处理;2:对步骤一预处理后后的文本进行特征提取,得到特征提取后的文本;3:基于步骤2建立CNN模型;4:建立CNN‑SVM模型;5:建立CNN‑KNN模型;6:设定区分阈值d;7:计算距离:计算待分类的样本点到CNN‑SVM分类器最优的分类面距离tmp;8:比较距离:当tmp>d时,选择CNN‑SVM分类器;否则,选择CNN‑KNN分类器;9:重复执行步骤6至步骤9,寻找评价指标最优的d值。本发明用于文本分类领域。
  • 同义词挖掘方法、装置、设备和计算机可读存储介质-201710852095.3
  • 周文礼;张二磊;王娜敏;刘杰 - 华为技术有限公司
  • 2017-09-19 - 2019-11-05 - G06F16/35
  • 本发明提供了一种同义词挖掘方法、装置、设备和计算机可读存储介质,涉及机器语言领域。该同义词挖掘方法,包括:获取同义词候选资源集,同义词候选资源集包括多条机器数据;识别同义词候选资源集中每条机器数据具有的上下文信息,根据预设的特征词词典,提取每条机器数据的上下文信息中的特征词;对同义词候选资源集中具有相同特征词的多条机器数据进行文本分析,得到同义词集合,同义词集合包括具有相同特征词的至少两条机器数据所具有的同义词。利用本发明的技术方案能够实现在机器语言环境中的同义词挖掘。
  • 一种基于细粒度情感词典的心理预警模型构建方法-201610286515.1
  • 于瑞国;林榆旺;王建荣;于健;喻梅;刘江月 - 天津大学
  • 2016-04-29 - 2019-11-05 - G06F16/35
  • 本发明公开了一种基于细粒度情感词典的心理预警模型构建方法,该方法包括:步骤(1)、利用翻译的方法得到ANEW词典对应的中文词典;步骤(2)、词汇筛选,删除步骤(1)得到的中文词典中不适用于情感分析的词汇;步骤(3)、进行情感值的归一化处理,将词语的情感值归一化到‑1~1之间,步骤(4)、基于同义词林扩展版进行情感词典的扩充;步骤(5)、基于改进的SO‑PMI算法进行词典的扩充;步骤(6)、对于微博文本进行基于规则的情感倾向性分析;步骤(7)、执行基于权重因子的情感分析算法。与现有技术相比,本发明不受语料数量的限制,可以实现完全无监督的执行,非常适合微博大量且无标记的数据。
  • 事件发现方法和装置-201810354364.8
  • 李涓子;张斌;侯磊;肖玏;张鹏 - 清华大学
  • 2018-04-19 - 2019-11-01 - G06F16/35
  • 本发明实施例提供事件发现方法和装置。其中,方法包括:根据全部词类,获取当前时间段的每一新闻文档的表示向量;根据聚类算法,对当前时间段的新闻文档的表示向量进行聚类,将属于同一聚类的表示向量所对应的新闻文档构成报道同一事件的新闻文档集合;对于每一事件,若根据该事件与全部已确定的事件之间的第一相似度,获知该事件与任一已确定的事件相同,则将报道该事件的新闻文档集合,与报道该已确定的事件的新闻文档集合进行合并。装置包括:文档表示模块、事件获取模块和事件合并模块。本发明实施例提供的事件发现方法和装置,有效降低了文档表示的维度,并缓解了语义稀疏问题,能提高事件发现的效率和准确性。
  • 一种网页的训练方法及系统-201810365676.9
  • 王福生 - 王福生
  • 2018-04-23 - 2019-11-01 - G06F16/35
  • 本发明涉及一种网页的训练方法及系统,根据网页的具体显示内容进行分类,预先设置不同类别,在每一个类别下设置不同分类关键词;然后获取现有网站中与设置的分类关键词相关联的已有关键词的数据,并获得预先设置的分类关键词在所有现有网站中的出现概率;并构建一分类关键词概率表;获得待训练的网页文本,然后根据分类关键词概率表中出现的对应分类关键词的概率顺序在所述待训练的网页文本中搜索是否有与之分类关键词相互关联的指定类目,然后将指定类目的比例进行排列,并进行多次模拟训练,最终获得地待训练的网页文本所属的商业类型。本发明通过本训练让客户根据商业意图快速找到合适的特点网站,方便用户使用。
  • 一种主题分类方法、装置、电子设备及可读存储介质-201910507841.4
  • 赵忠信;史忠伟;张鹏;张阳 - 五八有限公司
  • 2019-06-12 - 2019-11-01 - G06F16/35
  • 本发明公开了一种主题分类方法、装置、电子设备及可读存储介质,对于大规模流式的社交媒体数据,通过分词和词性标注,计算每个单词的权重,确定权重满足选择条件的单词为关键词,建立第一关键词列表。并与已知主题数据的第二关键词列表进行匹配,通过计算语义相似性,得到多个最大相似性值,并计算平均值,将平均值作为文本信息与主题数据的相似性得分,在相似性得分满足阈值条件时,将文本信息添加到主题中。本发明提供的方法,在进行主题检测时,充分考虑每个词的词性,以及词语、语句之间的相似性问题,实现新主题的发现和已知主题的自动归类,使得文本信息的主题分类更加准确。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top