[发明专利]针对特定领域的新词发现方法有效
申请号: | 201610150038.6 | 申请日: | 2016-03-16 |
公开(公告)号: | CN105760366B | 公开(公告)日: | 2018-06-29 |
发明(设计)人: | 王卿;吴琼;程工;杜漫;庞琳;李雄;刘春阳;张旭 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 席小东 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种针对特定领域的新词发现方法,包括以下步骤:步骤1,文档预处理;步骤2,构建候选新词集;其中,每个候选新词由词语、该词语距离所述中心词语的距离向量值以及所述中心词语均采用新词表述方式表达。步骤3,候选新词挖掘;优点为:针对特定领域的新词发现方法,采用更灵活的新词表达方式,将数据挖掘领域的关联规则方法引入新词发现过程,并创新地提出将词汇与指定关键词的距离向量作为关联规则挖掘的重要特征,由此可快速准确全面的识别出文档包含的所有新词。 | ||
搜索关键词: | 新词发现 词语 关联规则挖掘 文档预处理 表达方式 关联规则 距离向量 数据挖掘 灵活的 构建 文档 词汇 挖掘 引入 | ||
【主权项】:
1.一种针对特定领域的新词发现方法,其特征在于,包括以下步骤:步骤1,文档预处理:基于中文词库,采用中文分词算法对原始文档集进行中文分词处理,将所述原始文档集转化为词语序列;步骤2,构建候选新词集,包括:步骤2.1,指定所述词语序列中的某个词语作为中心词语,并设定扫描窗口区间;其中,设所述扫描窗口区间为[‑a,+b];a和b为正整数或0,并且,a等于或不等于b;步骤2.2,对于步骤1得到的所述词语序列,以所述中心词语为中心,并从所述中心词语开始,分别向前逆向扫描和向后正向扫描;其中,向前逆向扫描方法为:在逆向扫描过程中,只要扫描到文档开始位置,即停止扫描;否则,向前逆向逐个扫描每个词语,并判断扫描到的词语距离所述中心词语的距离是否大于a,如果不大于,则记录扫描到的每个词语以及该词语距离所述中心词语的距离向量值;如果大于,则停止扫描;向后正向扫描方法为:在正向扫描过程中,只要扫描到文档结束位置,即停止扫描;否则,向后正向逐个扫描每个词语,并判断扫描到的词语距离所述中心词语的距离是否大于b,如果不大于,则记录扫描到的每个词语以及该词语距离所述中心词语的距离向量值;如果大于,则停止扫描;由此得到扫描窗口内的每个词语以及该词语距离所述中心词语的距离向量值;步骤2.3,步骤2.2扫描得到的每个词语、将其与该词语距离所述中心词语的距离向量值组合,连同所述中心词语形成候选新词;将所有的候选新词所构成的集合,称为候选新词集;步骤3,候选新词挖掘:对所述候选新词集中的每个所述候选新词进行进一步的挖掘分析,判断每个所述候选新词是否满足新词构成要求,如果满足,则该候选新词即作为最终挖掘到的新词,并输出所述挖掘到的新词;否则,丢弃该候选新词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心,未经国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610150038.6/,转载请声明来源钻瓜专利网。
- 上一篇:多功能网页图书馆
- 下一篇:一种化学放热反应的分布式主元分析神经网络建模方法