[发明专利]文本处理方法、装置、设备、介质和程序产品在审
申请号: | 202210012052.5 | 申请日: | 2022-01-06 |
公开(公告)号: | CN114707486A | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 林勇;刘捷;魏梦菲;原普雨;贾丰华 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/289 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 李世阳 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 处理 方法 装置 设备 介质 程序 产品 | ||
本公开提供了一种文本处理方法,可以应用于文本处理技术领域。该方法包括:构建存量文本资产库,该存量文本资产库中存储的存量文本标注有文本特征,响应于用户输入的文本特征,从该存量文本资产库中选取与该文本特征相应的存量文本,对该存量文本进行文本优化,输出优化后的存量文本。本公开还提供了一种文本处理装置、设备、存储介质和程序产品。通过存量文本资产库选取存量文本,并对该存量文本进行文本优化,对不满足规范的存量文本进行修改,实现了提升存量文本资产自然语言描述质量的目的。
技术领域
本公开涉及金融科技以及计算机领域,具体地涉及一种文本处理方法、装置、设备、介质和程序产品。
背景技术
描述软件开发文本资产(包含需求、用例、测试案例,以下简称文本资产)的语言可以是模型语言或者是自然语言。更多的时候,文本资产是用自然语言进行描述的。而受编写人员的语言习惯、写作水平等因素影响,即使是描述同样一个文本资产,不同的编写人员写出的需求可能千差万别。这就使得往往写出的文本资产质量不佳,需要付出许多额外的沟通成本去明确文本资产内容。通常编写人员由于不了解一条高质量文本资产应具有哪些特征,无法对需求进行修正。
发明内容
鉴于上述问题,本公开提供了一种文本处理方法、装置、设备、介质和程序产品。
根据本公开的第一个方面,提供了一种文本处理方法,包括:
构建存量文本资产库,所述存量文本资产库中存储的存量文本标注有文本特征;
响应于用户输入的文本特征,从所述存量文本资产库中选取与所述文本特征相应的存量文本;
对所述存量文本进行文本优化,输出优化后的存量文本。
在本公开一实施例中,所述构建存量文本资产库包括:
获取软件开发过程中涉及的所有原始文本;
提取每个所述原始文本的文本特征;
将每个所述原始文本的文本特征标注在对应的原始文本上;
基于标注有文本特征的所有原始文本,得到所述存量文本资产库。
在本公开一实施例中,所述方法还包括:
将所述优化后的存量文本替代与所述文本特征相应的存量文本存入所述存量文本资产库。
在本公开一实施例中,所述对所述存量文本进行文本优化,输出优化后的存量文本包括:
获取所述存量文本的句法成分;
判断所述存量文本的句法成分是否包含所有指定句法成分;
若所述存量文本的句法成分缺少指定句法成分,则填补缺少的所述指定句法成分的词语。
在本公开一实施例中,所述对所述存量文本进行文本优化,输出优化后的存量文本包括:
获取所述存量文本的句法成分;
判断所述存量文本的句法成分是否存在所有禁止句法成分;
若所述存量文本的句法成分存在所述禁止句法成分,则删除所述存量文本中的所述禁止句法成分对应的语句。
在本公开一实施例中,所述对所述存量文本进行文本优化,输出优化后的存量文本包括:
获取所述存量文本的所有词语的词性;
判断所述存量文本的所有词语的词性是否存在禁止词性;
若所述存量文本的所有词语的词性存在所述禁止词性,则删除所述存量文本中所述禁止词性对应的词语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210012052.5/2.html,转载请声明来源钻瓜专利网。