本发明是一种实际场景语料和有限状态网络(Finite State Network,FSN)语料的平衡方法。为了训练连续语言识别器的语言模型,必须针对识别器应用领域制作训练语料。语料的来源主要有2部分:一部分是通过整理实际应用场景下录音得到的语料,称为实际场景语料;另一部分是用有限状态网络句法规则方法生成的语料,称为FSN语料。本发明重点研究了这2种语料的平衡方法,提出了以实际场景语料和FSN语料中共有的关键词的概率比较为依据,用一定倍数的部分实际场景语料扩展FSN语料,得到最终语言模型训练语料的方法。