[发明专利]倒排参考句形分词技术无效
申请号: | 200510110079.4 | 申请日: | 2005-11-07 |
公开(公告)号: | CN1963806A | 公开(公告)日: | 2007-05-16 |
发明(设计)人: | 徐文新 | 申请(专利权)人: | 徐文新 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200433上海市杨浦区邯郸路*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 倒排参考句形分词技术是一种基于参考句形、词语搭配的分词技术。其方法是首先建立某种语言的参考句型(含词语搭配、词组、词语,下同)S数据库,给出句型编号n,统计出参考句型、词语搭配所包含的字符元数k。然后建立包含所有字符元的倒排文件,在每个字符元后列出包含该字符元的所有参考句型编号n,即倒排参考句型。对需要分词的句子T所有字符元P1、P2、P3…Pm,根据倒排文件对参考句型数据库进行累计标示,得到参考句型Sn包含T的字符元个数j。j=k的句型Sn为T的可参考句型,参照这些句型对T进行分词,一般以j值大的句型优先参考。j<k的句型也可以作一定程度的参考。倒排参考句形分词技术本质是基于语义的分词技术,可以提高分词水平,可用于语音输入、机器翻译、搜索引擎等方面。 | ||
搜索关键词: | 参考 分词 技术 | ||
【主权项】:
1.一种分词技术,其特征在于,包括以下步骤:a.建立某种语言的参考句型(含词语搭配、词组、词语,下同)S数据库,给出句型编号n,统计出参考句型、词语搭配所包含的字符元数k。b.建立包含所有字符元的倒排文件,在每个字符元后列出包含该字符元的所有参考句型编号n,即倒排参考句型。c.对需要分词的句子T所有字符元P1、P2、P3…Pm,根据倒排文件对参考句型数据库进行累计标示,得到参考句型Sn包含T的字符元个数j。d.j=k的句型Sn为T的可参考句型,参照这些句型对T进行分词,优先参考j值大的句型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于徐文新,未经徐文新许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200510110079.4/,转载请声明来源钻瓜专利网。
- 上一篇:酶解木质素聚氨酯的原料配方及其制备方法
- 下一篇:一种绞股蓝超微粉