基于Kaldi的语音识别引擎后端架构设计

出处： mp.weixin.qq.com 作者：王焱

语音识别技术，是将语音信号转换为文本内容的技术。目前比较流行的语音识别技术主要有两种。一种是基于Kaldi的传统语音识别技术，另一种是目前流行的基于深度学习模型的端到端语音识别技术。Kaldi是一种大而全的语音识别处理框架，集成了数据预处理、特征提取、声学模型建模、语言模型建模、解码等，识别效果上能够满足大多数的语音识别场景。但是Kaldi是自成一体的框架，没有现在流行的pytorch、tensorflow框架的支持，需要开发者自行开发能应用到生产环境中的服务。基于深度学习模型的端到端语音识别框架是指将语音信号直接输入到深度学习模型中，通过端到端的方式进行语音识别，无需使用传统的声学模型和语言模型，常见的基于深度学习的端到端语音识别框架有很多，比如EspNet，WeNet等，这类语音识别框架有更通用的模型训练和部署框架支持，有着更好的识别性能和识别效果。