|
钻瓜专利网为您找到相关结果 2610939个,建议您 升级VIP下载更多相关专利
- [发明专利]一种特征对齐中文分词方法-CN201811185491.6有效
-
李智星;冯开来;沈柯;任诗雅;王化明;李苑;孙柱;袁龙
-
重庆邮电大学
-
2018-10-11
-
2022-07-01
-
G06F40/289
- 本发明请求保护一种特征对齐中文分词方法,包括:101从标记数据和无标记数据中抽取二元词的特征;102通过地球移动距离(Earth Mover’s Distance,以下简称EMD)方法将标记数据和无标记数据进行特征对齐;103通过分类器xgboost训练经过特征对齐后的标记数据的特征,从而预测无标记数据中二元词成词的概率;104从分类器的结果中抽取一部分二元词与步骤101标记数据的二元词整合作为条件随机场的特征并进行训练;105通过建立的模型,对无标记数据进行序列标注分词。本发明主要是通过EMD对标记数据和无标记数据进行特征对齐,并通过分类器学习来预测二元词的成词概率,然后以堆叠的方式整合了条件随机场形成新的分词器。
- 一种特征对齐中文分词方法
|