[发明专利]一种基于机器学习的中文商业文本预处理方法在审

申请号：	201910660219.7	申请日：	2019-07-22
公开（公告）号：	CN110457685A	公开（公告）日：	2019-11-15
发明（设计）人：	桂冠;张婕;杨洁	申请（专利权）人：	南京邮电大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06N20/00
代理公司：	32224 南京纵横知识产权代理有限公司	代理人：	董建林<国际申请>=<国际公布>=<进入
地址：	210012江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	中文文本文本预处理词义基于机器词语预处理贝叶斯分类器机器翻译词性标注混合模型利用条件模型结合问答系统词向量多义词决策树实施性分词分句权重消歧应答语境输出智能学习情景计算机概率延伸
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于机器学习的中文商业文本预处理方法，对输入的中文商业文本采用以下步骤进行处理：（1）对中文商业文本进行分句和分词；（2）利用决策树对分好的词语进行词性标注；（3）基于贝叶斯分类器利用条件概率进行词义消歧；（4）利用One‑Hot编码与Skip‑Gram模型结合的混合模型表示词向量；（5）利用TF‑IDF调整词语权重，确定多义词在当前语境下对应的词义；（6）输出基于机器学习预处理后的中文商业文本。本发明能够有效的解决中文商业问答系统由于文本预处理不足导致系统答非所问，应答情景有限的问题，提高计算机理解文本的准确性，使得机器翻译、智能问答等延伸工作具有可实施性。

技术领域

本发明属于自然语言处理领域，具体涉及一种基于机器学习的中文商业文本预处理方法。

背景技术

商业发展和人工智能的结合受到越来越广泛的关注，语音识别技术是人机交互的基础。现阶段的自然语言处理通常采用以下两种方法，一种是基于规则的自然语言处理方法，国内外利用这种方法进行多年的实验后，效果依然十分不理想，原因是它从该语言的语法句法等方面出发，按照语言的规则来分析和处理，因为规则太多，没有固定的方法，同时通过人们的生产生活，不断地增添新的规则，所以实现起来十分困难。另一种方法是基于统计的自然语言处理方法，这种方法基于收集大量的语料数据，通过统计学习的方式来理解语言，这在当代越来越受重视而且已经成为趋势。目前，计算机功能和数据存储的快速增长，使访问大量的语言数据成为可能。中文数据与其他语言存在巨大差异，如中文是连续书写的，没有语态和时态的变化以及存在多音字等，使得中文更加的灵活，许多国外成熟的技术无法用于处理中文文本。本发明提出一种基于机器学习的中文商业文本预处理方法。

发明内容

针对上述问题，本发明提出一种基于机器学习的中文商业文本预处理方法。

实现上述技术目的，达到上述技术效果，本发明通过以下技术方案实现：

一种基于机器学习的中文商业文本预处理方法，其特征在于：对输入的中文商业文本采用以下步骤进行处理：

(1)对中文商业文本进行分句和分词；

(2)利用决策树对分好的词语进行词性标注；

(3)基于贝叶斯分类器利用条件概率进行词义消歧；

(4)利用One-Hot编码与Skip-Gram模型结合的混合模型表示词向量；

(5)利用TF-IDF调整词语权重，确定多义词在当前语境下对应的词义；

(6)输出基于机器学习预处理后的中文商业文本。

作为本发明的进一步改进，所述的步骤(1)中利用句号作为识别符对文本进行分句，基于概率统计模型对文本进行分词，具体为：

输入由C＝[c₁，c₂，…，c_n]^T表示的字符串，输出由S＝[w₁，w₂，…，w_m]^T表示的分词串，其中m≤n，之后利用如下公式进行分词：