[发明专利]剧本处理方法、装置、电子设备及计算机可读存储介质在审

专利信息
申请号: 202010136869.4 申请日: 2020-03-02
公开(公告)号: CN111291535A 公开(公告)日: 2020-06-16
发明(设计)人: 郏昕;阳任科;赵冲翔 申请(专利权)人: 北京奇艺世纪科技有限公司
主分类号: G06F40/131 分类号: G06F40/131;G06F40/166;G06F40/205
代理公司: 北京润泽恒知识产权代理有限公司 11319 代理人: 莎日娜
地址: 100080 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明实施例提供了一种剧本处理方法、装置、电子设备及计算机可读存储介质,属于计算机技术领域。该方法中,根据预设的集编号表述范围将待处理剧本分割为多个剧集,根据预设的场景编号表述范围将剧集分割为多个场景文本,提取场景文本中包含的场景信息字符,将场景文本中包含的场景信息字符、场景文本的场景编号及场景文本所属剧集的集编号,确定为场景文本的待整理信息,将场景文本的待整理信息以及场景文本中的正文文本,按照预设形式进行组合。以单个场景文本为处理对象进行提取,一定程度上可以降低剧本内部的耦合度,进而提高提取准确性。将场景文本按照预设形式重新组合,使场景文本内部的形式保持一致,进而方便处理。
搜索关键词: 剧本 处理 方法 装置 电子设备 计算机 可读 存储 介质
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/202010136869.4/,转载请声明来源钻瓜专利网。

同类专利
  • 文档编译方法、装置、计算机可读介质及电子设备-202210413701.2
  • 张升 - 腾讯科技(深圳)有限公司
  • 2022-04-15 - 2023-10-27 - G06F40/131
  • 本申请属于文档处理领域,涉及文档编译方法、装置、计算机可读介质及电子设备。方法包括:响应文档编译请求,所述文档编译请求中包含原始文档和更新文档;解析原始文档和更新文档,以获取与原始文档对应的第一标记信息流和与更新文档对应的第二标记信息流;根据第一标记信息流和第二标记信息流获取第一标记信息序列和第二标记信息序列,并根据第一标记信息序列和第二标记信息序列确定最小编辑脚本,最小编辑脚本包括将第一标记信息序列转换为第二标记信息序列所需的插入信息和删除信息中的至少一种;根据最小编辑脚本在原始文档对应的原代码中进行编译,以获取与更新文档对应的编译代码。本申请能够提高编译效率和文档预览质量。
  • 一种法律裁判文书信息抽取方法-202010586120.X
  • 白雄文;惠欣恒;安娜;康健;陈飞 - 北京计算机技术及应用研究所
  • 2020-06-24 - 2023-10-20 - G06F40/131
  • 本发明涉及一种法律裁判文书信息抽取方法,其中,包括:步骤一:根据不同的案由选择相对应的规则引擎、关键字字典以及模版引擎;步骤二:将裁判文书进行数据清洗;步骤三:将裁判文书的内容按照分段进行分割;步骤四:将分割的裁判文书的内容作为基于注意力机制的序列作为神经网络模型的输入,进行标签信息的提取;步骤五:将神经网络提取的信息进行微调;步骤六:根据提取的标签信息以及对应的模板引擎,生成所需要格式的结构化文档。本发明针对现有规则的解析缺点,利用深度学习技术,构建了基于注意力机制的神经网络模型,可以大大提高法律要素提取的效率与准确度。
  • 文本分块方法,装置,存储介质及电子设备-201811459532.6
  • 韩志刚 - 东软集团股份有限公司
  • 2018-11-30 - 2023-06-16 - G06F40/131
  • 本公开涉及一种文本分块方法,装置,存储介质及电子设备。该方法包括:对第一文本和第二文本进行预分块,得到所述第一文本的文字块组以及所述第二文本的文字块组;确定所述第一文本的文字块组与所述第二文本的文字块组中各个文字块之间的匹配率;将匹配率大于预设阈值的文字块对作为共通文字块对,并基于所述共通文字块对,对所述第一文本和所述第二文本重新进行分块,得到所述第一文本的新的文字块组和所述第二文本的新的文字块组;重新执行确定匹配率,以及基于共通文字块对所述第一文本和所述第二文本重新进行分块的步骤,直到满足预设的停止分块条件为止,得到所述第一文本和所述第二文本最终的分块结果。
  • 一种基于节目串联单的广播节目音频智能拆条方法及装置-202010105343.X
  • 白子龙 - 阿基米德(上海)传媒有限公司
  • 2020-02-20 - 2023-03-03 - G06F40/131
  • 一种基于节目串联单的广播节目音频智能拆条方法及装置。本发明提出了一种基于语音转写文本的半监督音频拆条方法和装置,所述音频拆条方法包括:步骤一、语音转写;步骤二、构建串联单主题集合;步骤三、备选匹配;步骤五、精确匹配;以及步骤六、头尾校验,分别设置相似度阈值Thh和Tht来评估拆条的准确度,当头部校验计算所得相似度大于Thh且尾部校验计算所得相似度大于Tht时,将拆条结果输出,否则放弃该主题拆条。本发明仅需要广播节目串联单作为模版即可完成拆条,不需要额外的标注数据,相比于基于深度学习的拆条算法人工成本比较低。
  • 语音文件切分方法、装置及计算机设备-201910199148.5
  • 周小星;洪国军 - 腾讯科技(深圳)有限公司
  • 2019-03-15 - 2022-12-23 - G06F40/131
  • 本申请公开了一种语音文件切分方法、装置及计算机设备,该方法包括:获取配音文本文件及配音的语音文件;转换出该配音文本文件中各条配音文本的拼音序列;将该语音文件拆分为多个语音段;针对待处理的目标语音段,确定目标语音段对应的第二拼音序列,及最近一个语音段组对应的第三拼音序列;依据多条配音文本的第一拼音序列,该第二拼音序列以及该第三拼音序列,确定该目标语音段与该配音文本文件中配音文本的第一匹配度,及目标语音段组与配音文本文件中配音文本的第二匹配度;如第二匹配度小于第一匹配度,将最近一个语音段组的结束位置确定为文件切分点,以切分该语音文件。本申请的方案可以更为精准、合理的对配音的语音文件进行切分。
  • 一种文本处理方法、装置及电子设备-202210921374.1
  • 江贵林;荣新淼;汤惠蓉;余胜男;朱凤玲 - 中国银行股份有限公司
  • 2022-08-02 - 2022-10-28 - G06F40/131
  • 本申请公开了一种文本处理方法、装置及电子设备,可应用于人工智能领域或金融领域。确定子文本切割得到的字段个数与对应的参考字段个数的大小关系,在大小关系为大于时,对分割得到的字段进行两两合并,得到新字段,确定出新字段中,无须进行分割操作的目标字段,将目标字段以及分割得到的字段中不涉及目标字段的其他字段进行入库操作。在大小关系为小于时,将子文本与位于子文本之后的至少一行文本合并,并执行后续的文本切割以及比对过程。本发明,在字段个数大于或小于对应的参考字段个数的情况下,分别进行相应的处理,从而将与参考字段个数不匹配的文本分割得到的字段成功进行入库操作,相比于直接丢弃的方式,能够提高数据存储的完整性。
  • 信息抽取方法及装置-201810401030.1
  • 李德彦;晋耀红;吴相博 - 北京神州泰岳软件股份有限公司
  • 2018-04-28 - 2022-04-19 - G06F40/131
  • 本发明实施例公开一种信息抽取方法及装置,该方法包括:获取待抽取信息的文本和抽取表达式,所述抽取表达式包括区域确定规则和信息抽取规则,所述区域确定规则中包含统计算子,所述统计算子表征用于识别文本中的命名实体和/或依存成分的统计模型;利用统计模型识别所述文本中的命名实体和/或依存成分,为识别出的命名实体和/或依存成分分别标记对应的识别标签;利用所述识别标签比对所述区域确定规则和所述文本,确定所述文本中的有效抽取区域;从所述有效抽取区域中抽取出与所述信息抽取规则匹配的字符串。上述方法以规则的方式来调用统计模型,方便灵活,同时扩大了识别词汇的范围,减少规则构建,更加准确地抽取出用户需要的信息。
  • 截断语音文件的方法、终端设备及计算机存储介质-201710471549.2
  • 高瑞 - 广东小天才科技有限公司
  • 2017-06-20 - 2021-11-19 - G06F40/131
  • 本发明提供了一种截断语音文件的方法、终端设备及计算机可读存储介质,涉及截取语音技术领域。该方法包括:将语音文件按照语句转换为文本文件,并记录文本文件中每个语句停顿时的文本时间点;将转换后的文本文件与语音文件按照语句进行匹配成功后,将匹配成功后的文本文件中每个语句对应的文本时间点记录为停顿时间点;收集记录的所有停顿时间点,生成时间点信息文件;将语音文件按照时间点信息文件进行截音,生成语句文件。本发明通过停顿时间点将语音文件进行截音生成单个的语句文件,可以实现批处理整段语音文件,提高了截音效率,降低了语句文件的制作成本,使得语句文件的生成过程更加简单化。
  • 一种提取pptx文件内容的方法及装置-201910800946.9
  • 童陈敏 - 北京国双科技有限公司
  • 2019-08-28 - 2021-03-05 - G06F40/131
  • 本发明公开了一种提取pptx文件内容的方法及装置,可以从文本关系文件presentation.xml.rels中提取文本文件的名称,由于任意一个文本文件中记录pptx文件中的一页幻灯片中的文本,所以可以基于文本文件的名称,获取文本文件,并提取文本文件中的文本。综上,本方法只需获取文本关系文件presentation.xml.rels以及文本文件,不需要获取pptx文件的格式信息,即可从文本文件中提取pptx文件内容,所以大大提高了提取pptx文件内容的速度。进一步,本方法通过SAX提取pptx文件的内容,可以做到载入解压后的XML文件中的一部分数据并进行处理,无需载入全部文件数据,所以本方法具有占用内存小、提取速度高的优点。
  • 一种文件加载方法、装置、设备及计算机可读存储介质-202010946727.4
  • 李政军;陈娅芳 - 湖南新云网科技有限公司
  • 2020-09-10 - 2020-12-08 - G06F40/131
  • 本发明公开了一种文件加载方法,该方法包括以下步骤:对接收到的文件加载请求进行解析,得到待加载的目标文件和目标加载位置信息;按照预设文件分割规则对目标文件进行分割处理,得到各待加载子文件;根据目标加载位置信息计算各待加载子文件分别对应的目标加载坐标;分别将各待加载子文件加载到对应的目标加载坐标所在区域。应用本发明实施例所提供的技术方案,实现了对图片文件的部分擦除,保证了文字文本在擦除尾部之外的文字内容后,剩余文字内容仍保留在原始位置。本发明还公开了一种文件加载装置、设备及存储介质,具有相应技术效果。
  • 文档的分割方法、装置及电子设备-202010489748.8
  • 刘涵 - 北京百度网讯科技有限公司
  • 2020-06-02 - 2020-10-27 - G06F40/131
  • 本申请公开了一种文档的分割方法、装置及电子设备,涉及深度学习及自然语言处理技术领域。具体实现方案为:获取目标文档;从目标文档之中提取多个元素;获取多个元素的语义特征和图像特征;根据多个元素的语义特征和图像特征确定多个分割点;根据多个分割点对目标文档进行分割。由此,通过这种文档的分割方法,引入文档中包括的各元素的图像特征,对各元素的文本结构进行表达,以通过综合考虑文档的语义信息和文本结构特征,将文档分割为语义差异较大且文本结构相似的短文本,从而提升了文本分割的准确度。
  • 一种基于机器学习的文章断句方法-202010232911.2
  • 李鑫;沈伟;鲍琦 - 苏州机数芯微科技有限公司
  • 2020-03-28 - 2020-07-10 - G06F40/131
  • 本发明提出的一种基于机器学习的文章断句方法,首先获取文本中的分隔符号,提取各分隔符号以及分隔符号两侧的相邻词语形成特征标记;将文本的特征标记输入预设的切分模型,通过切分模型从特征标记中筛选有效分隔符合并输出;然后根据有效分割符号获得文本断句结果。本发明中,切分模型的输入为特征标记,特征标记的提取简化了切分模型对待断句文本的前期处理,使得切分模型的输入更加简洁并具有针对性,从而提高了断句效率。本发明向开发者和科研人员提供了相应的工具对化学专业领域的文档进行分句以保证数据处理后续步骤的顺利运行。
  • 剧本处理方法、装置、电子设备及计算机可读存储介质-202010136869.4
  • 郏昕;阳任科;赵冲翔 - 北京奇艺世纪科技有限公司
  • 2020-03-02 - 2020-06-16 - G06F40/131
  • 本发明实施例提供了一种剧本处理方法、装置、电子设备及计算机可读存储介质,属于计算机技术领域。该方法中,根据预设的集编号表述范围将待处理剧本分割为多个剧集,根据预设的场景编号表述范围将剧集分割为多个场景文本,提取场景文本中包含的场景信息字符,将场景文本中包含的场景信息字符、场景文本的场景编号及场景文本所属剧集的集编号,确定为场景文本的待整理信息,将场景文本的待整理信息以及场景文本中的正文文本,按照预设形式进行组合。以单个场景文本为处理对象进行提取,一定程度上可以降低剧本内部的耦合度,进而提高提取准确性。将场景文本按照预设形式重新组合,使场景文本内部的形式保持一致,进而方便处理。
  • 网页信息提取方法及装置-201610995251.7
  • 于龙;晋好林;陈美丽;朱涛;赵西法 - 政和科技股份有限公司
  • 2016-11-11 - 2020-04-03 - G06F40/131
  • 本发明公开了一种网页信息提取方法及装置,所述方法包括:提取待提取网页的所有区域块;确定所述待提取网页的所有区域块中的非边界区域块;将标点密度超过第一预设阈值的非边界区域块确定为正文内容。本发明实施例的技术方案根据待提取网页的所有区域块中的非边界区域块,将标点密度超过第一预设阈值的非边界区域块确定为正文内容,通过基于标点数量来确定网页的正文内容,提高了提取网页的通用性和执行效率。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top