[发明专利]一种基于向量空间模型的文本分类及R语言实现在审

申请号：	201910587852.8	申请日：	2019-07-02
公开（公告）号：	CN110750639A	公开（公告）日：	2020-02-04
发明（设计）人：	刘家祥	申请（专利权）人：	厦门美域中央信息科技有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/33
代理公司：	11589 北京劲创知识产权代理事务所(普通合伙)	代理人：	王志敏
地址：	361008 福建省厦门市软件园***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种基于向量空间模型的文本分类及R语言实现，包括以下具体步骤：构建文本数据库和构建向量空间模型；对数据库中的文本进行分类，得到文本集合A；输入待分类的文本B；使用向量空间模型逐一计算文本B与文本集合A中的文本A1之间的向量夹角，得到夹角集合C；逐一判断夹角集合C中的夹角C1是否小于等于设定的阙值；若夹角C1小于等于设定的阙值，则将文本B划分至夹角C1所对应的文本A1中；若夹角C1均大于设定的阙值，则判定文本B不属于文本集合A中任意一个文本A1。本发明能大大提高对文本B的分类效率，同时也能提高对文本B的分类的准确率。
搜索关键词：	文本向量空间模型文本集合构建分类集合文本数据库分类效率文本分类向量夹角准确率判定数据库语言
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于向量空间模型的文本分类及R语言实现，其特征在于，包括以下具体步骤：/nS1、构建文本数据库，并对数据库中的文本进行分类，得到文本集合A；/nS2、构建向量空间模型；/nS3、输入待分类的文本B；/nS4、使用向量空间模型逐一计算文本B与文本集合A中的文本A1之间的向量夹角，得到夹角集合C；/nS5、逐一判断夹角集合C中的夹角C1是否小于等于设定的阙值；/n若夹角C1小于等于设定的阙值，则执行S6；/n若夹角C1均大于设定的阙值，则执行S7；/nS6、将文本B划分至夹角C1所对应的文本A1中；/nS7、文本B不属于文本集合A中任意一个文本A1。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于厦门美域中央信息科技有限公司，未经厦门美域中央信息科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910587852.8/，转载请声明来源钻瓜专利网。

上一篇：一种基于半监督学习的多标签语料库文本分类方法
下一篇：基于神经网络模型的文本数据分类方法、装置及存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于向量空间模型的文本分类及R语言实现在审

专利文献下载