[发明专利]用于分割文本的系统和方法有效
申请号: | 201780093468.1 | 申请日: | 2017-07-31 |
公开(公告)号: | CN110998589B | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 白洁;李秀林 | 申请(专利权)人: | 北京嘀嘀无限科技发展有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279 |
代理公司: | 成都七星天知识产权代理有限公司 51253 | 代理人: | 杨永梅 |
地址: | 100193 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 分割 文本 系统 方法 | ||
本申请提供一种用于分割文本的系统和方法。该方法可以包括识别由至少两个样本文本共有的候选词组(S202)。由处理器确定所述候选词组的评估分数(S204)。识别所述候选词组作为组织词组(S206),基于所述组织词组对文本进行分割(S208)。
技术领域
本申请涉及文本处理技术,更具体地涉及从样本文本提取组织词组和基于组织词组分割文本。
背景技术
文本语音转换技术可以将文本语句转录为音频信号。例如,在导航应用程序(例如,DiDi APP)中,诸如交通状况、地址等的文本语句可以通过语音呈现给用户。
为了自然的阅读,一段文本(例如,语句)在被转录成音频信号之前必须进行适当地分割。通常,语句中包括的每个词组包含一个或以上的单词。与本申请一致,单词可以是英语、法语、西班牙语或拉丁语,或亚洲语言,如中文、韩文、日文等中的字符。这些单词或字符可以分成至少两个可能组合的词组。
文本语句可能包含地址信息或兴趣点(POI),也可被称为“组织词组”。例如,在导航文本语句“中国-新加坡工业园区距离30公里”中,“工业园区”是组织词组。根据所述组织词组,上述语句可以被分割为“中国-新加坡/工业园区/距离30公里”。因此,组织词组可用于促进文本语句的适当分割。
本申请的实施例提供了一种改进的用于提取组织词组和基于组织词组分割文本的系统和方法。
发明内容
本申请的一个方面提供了一种用于分割文本的方法。该方法可以包括通过处理器识别由至少两个样本文本共有的候选词组。通过处理器确定候选词组的评估分数。当评估分数符合默认标准时,通过处理器将候选词组识别为组织词组,并基于组织词组进行文本分割。
本申请的另一方面提供了一种用于分割文本的系统。该系统可以包括通信接口,其被配置用于接收至少两个样本文本并存储。处理器被配置用于识别由至少两个样本文本共有的候选词组。确定候选词组的评估分数。当评估分数符合默认标准时,将候选词组识别为组织词组,并基于组织词组进行文本分割。
本申请的又一方面提供了一种非暂时性计算机可读取介质,其存储一组指令,当由电子装置的至少一个处理器执行时,使得电子装置执行用于生成组织单词列表的方法。该方法可以包括识别由至少两个样本文本共有的候选词组。确定候选词组的评估分数。当评估分数符合默认标准时,将候选词组识别为组织词组,并基于组织词组进行分割文本。
应当理解,前面的一般性描述和下面的详细描述都只是示例性和说明性的,并不是对本申请所要求保护的限制。
附图说明
图1是根据本申请的一些实施例所示的用于分割文本的示例性系统框图。
图2是根据本申请的一些实施例所示的用于分割文本的示例性方法的流程图。
图3是根据本申请的一些实施例所示的用于确定评估分数的流程的流程图。
具体实施方式
本申请通过示例性实施例进行详细描述,这些示例性实施例将通过图式进行详细描述。任何可能的情况下,图中同一参考数字表示相同的部分。
本申请的一个方面涉及一种用于分割文本的系统。例如,图1系根据本申请的一些实施例所示的用于分割文本的示例性系统100的框图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司,未经北京嘀嘀无限科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780093468.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于车辆的开放式车顶构造
- 下一篇:用于确定服务请求费用的系统和方法