[发明专利]文本改写方法及装置有效
申请号: | 201810345021.5 | 申请日: | 2018-04-17 |
公开(公告)号: | CN108710607B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 王子豪;张健;纪达麒;陈运文 | 申请(专利权)人: | 达而观信息科技(上海)有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F40/247;G06F40/253;G06F40/117 |
代理公司: | 北京知果之信知识产权代理有限公司 11541 | 代理人: | 唐海力;李志刚 |
地址: | 201203 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 改写 方法 装置 | ||
本申请公开了一种文本改写方法及装置。该文本改写方法包括:根据待改写文本确定文本的输入词集合;在所述输入词集合中提取输入词的词特征向量;根据所述词特征向量确定关键词集;根据所述关键词集对所述输入词集合筛选,得到文本改写对照表;根据所述文本改写对照表改写所述待改写文本。本申请解决了文本改写自动化程度低、文本风格特点难以把握和文本原意容易造成偏移的技术问题。
技术领域
本申请涉及通信领域,具体而言,涉及一种文本改写方法及装置。
背景技术
自从人类进入信息时代以来,信息的规模经历了爆炸式的增长,人们每天接收铺天盖地的信息轰炸的同时,对于信息内容的质量也有了更高的要求。文本作为信息的一种重要载体,在人类文明悠久的长河中承载了至关重要的作用。而在视频音频内容都极大丰富的如今,人们是否还会将文本作为接收信息的首要途径已不得而知。这越来越对文本内容的新颖性和多样性提出了考验。
文本改写的目的在于对现有的文本进行风格、用词方面的变换,即保留文本的原意,又尽可能大的丰富文本的多样性和表现力。该技术在新闻出版和文学创作领域应用广泛。相比于人工文本改写所花费的时间精力以及知识门槛,一个好的文本自动改写系统能够在极短的时间内完成改写的同时,达到不弱于人工、甚至出乎意料的改写效果。因此,构建一个高效的文本自动改写系统具有十分重要的应用意义。
针对上述文本改写过程中存在的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种文本改写方法及装置,以解决文本改写自动化程度低、文本风格特点难以把握和文本原意容易造成偏移的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种文本改写方法。
根据本申请的文本改写方法包括:
根据待改写文本确定文本的输入词集合;
在所述输入词集合中提取词特征向量;
根据所述词特征向量确定关键词集;
根据所述关键词集对所述输入词集合筛选,得到文本改写对照表;
根据所述文本改写对照表改写所述待改写文本。
进一步的,所述根据待改写文本确定文本的输入词集合包括:获取待改写文本的分词处理结果;根据词性标注算法确定所述分词处理结果的词性;整合所述分词处理结果与所述分词处理结果的词性得到所述输入词集合。
进一步的,所述根据待改写文本确定文本的输入词集合包括:获取所述待改写文本的分词处理结果;根据词性标注算法确定所述分词处理结果的词性;根据所述分词处理结果的词性筛选候选改写词库。
进一步的,所述候选改写词库的构建方法包括:利用训练语料训练词向量模型,得到目标词向量;计算目标词向量间相似度;根据目标词向量间相似度确定候选改写词库。
进一步的,所述在所述输入词集合中提取词特征向量包括:获取所述输入词集合中输入词的词频;获取所述输入词在重要性词库中的逆文档频率;整合所述词频与所述逆文档频率得到所述词特征向量。
进一步的,所述根据所述词特征向量确定关键词集包括:根据所述词特征向量确定输入词集合中输入词的排序序列;根据所述排序序列确定关键词集。
进一步的,根据所述关键词集对所述输入词集合筛选,得到文本改写对照表包括:判断输入词是否在所述关键词集中;如果该输入词不在所述关键词集中,则在候选改写词库中查找与所述输入词相对应的候选改写词;将所述输入词与所述候选改写词相匹配的记录进本改写对照表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达而观信息科技(上海)有限公司,未经达而观信息科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810345021.5/2.html,转载请声明来源钻瓜专利网。