[发明专利]一种基于文本字符特征的文本数据归属描述及生成方法有效
申请号: | 202111041957.7 | 申请日: | 2021-09-07 |
公开(公告)号: | CN113761231B | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 栗青生;张丽;罗志强;王雪梅;张莉;陶贵丽;陈莉;郑珺;殷伟凤;裘姝平 | 申请(专利权)人: | 浙江传媒学院;浙江传媒学院桐乡研究院有限公司 |
主分类号: | G06F16/387 | 分类号: | G06F16/387;G06F16/383 |
代理公司: | 北京东方盛凡知识产权代理事务所(普通合伙) 11562 | 代理人: | 李娜 |
地址: | 310018 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 字符 特征 数据 归属 描述 生成 方法 | ||
本申请公开了一种基于文本字符特征的文本数据归属描述及生成方法,包括:获取待处理的文本数据,并对所述文本数据进行分解,得到若干个字符,并基于所述字符对所述文本数据进行特征空间表示;根据所述文本数据的特征空间表示,通过所述字符的水平位置和不同所述字符之间的关联对所述文本数据进行特征存储;根据所述文本数据的特征存储结果,生成文本数据归属。本申请能够通过特征空间的量化矩阵有效生成文本数据归属,有助于解决文本的自动生成及归属管理问题,丰富以中文为主的自然语言处理的基础理论和算法,为解决数据安全问题提供了一种新的思路,进而为未来文本大数据的科学管理提供理论和技术支持。
技术领域
本申请涉及文本数据归属生成技术领域,特别是涉及一种基于文 本字符特征的文本数据归属描述及生成方法。
背景技术
在智能化技术全面进入内容行业的今天,内容相关行业尤其是新 闻行业中的内容生产与内容分发正在重新被定义,数据成为信息管理 和服务的核心内容,由于文本数据在信息编辑、复制、传播和存储方 面的便利性,很快便成为各类媒体进行自动化生产、管理、运营和服 务的主要技术和手段。2015年9月,腾讯财经推出了自动化新闻写 作机器人“Dreamwriter”,用时一分钟写出了第一篇报道;11月新 华社写稿机器“快笔小新”正式上岗,可以写体育赛事中英文稿件和 财经信息稿;2016年由今日头条实验室和北京大学计算机研究所(万 小军团队)合作研发的新闻写作机器人“张小明”在13天内,共撰 写了457篇赛事报道,高峰时期仅需0.3秒就能够写出一篇简单的快 讯类新闻稿;2018年11月7日,在第五届世界互联网大会中,搜狗 与新华社合作开发了全球第一个“AI合成主播”,无论是写稿机器人 (Software robots)还是AI合成主播,其本质是基于智能化技术与 算法的文本自动化生产。
我们在享受技术便利的同时,数据安全也成为一项重要议题,一 旦写稿机器人或合成主播在进行数据抓取的过程中接受到了错误的 信息或谣言信息,则必然会引起舆情危机甚至社会恐慌。在大数据时 代,信息真假难辨的当下,智能内容生产技术加重了信息甄别的难度, 那么如何判断数据来源、确定数据归属以及甄别数据真假就成为了如 今广泛关注的问题。因此,有必要提供一种基于文本字符特征的文本 数据归属描述及生成方法,通过数据指纹概念以期能为解决数据安全 问题提供新思路。
发明内容
本申请的目的是提供一种基于文本字符特征的文本数据归属描 述及生成方法,以解决现有技术的问题,能够通过特征空间的量化矩 阵有效生成文本数据归属,有助于解决文本的自动生成及归属管理问 题,丰富以中文为主的自然语言处理的基础理论和算法,为解决数据 安全问题提供了一种新的思路,进而为未来文本大数据的科学管理提 供理论和技术支持。
为实现上述目的,本申请提供了如下方案:本申请提供一种基于 文本字符特征的文本数据归属描述及生成方法,包括:
获取待处理的文本数据,并对所述文本数据进行分解,得到若干 个字符,并基于所述字符对所述文本数据进行特征空间表示;
根据所述文本数据的特征空间表示,通过所述字符的水平位置和 不同所述字符之间的关联对所述文本数据进行特征存储;
根据所述文本数据的特征存储结果,生成文本数据归属。
可选地,基于所述字符对所述文本数据进行特征空间表示的方法 包括:
按字段将所述文本数据中的每个字符表示成以字段、字符位置和 特征点个数为变量的函数,即第一特征点位置函数;
根据每个字符的特征点位置函数,获取每个字符在整个所述文本 数据中的第二特征点位置函数;
根据所述第二特征点位置函数对所述文本数据进行特征空间表 示。
可选地,所述第一特征点位置函数、第二特征点位置函数、文本 数据的特征空间T表示分别如式1-3所示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江传媒学院;浙江传媒学院桐乡研究院有限公司,未经浙江传媒学院;浙江传媒学院桐乡研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111041957.7/2.html,转载请声明来源钻瓜专利网。