手写语音输入技术
概述
语音输入技术已经在移动设备领域得到了广泛应用,但是在某些场景下仍不能满足用户的需求,比如在嘈杂的环境或者需要保持沉默的场景下。手写输入是另一种较为常见的输入方式,然而,传统的手写输入方法需要手写字母一个一个输入,效率较低,同时,需要大量准确率高的样本来训练,对于低资源的移动设备来说是一种挑战。本文介绍了手写语音输入技术,能够以更高效的方式输入字母,并且不需要大量的样本来训练模型。本文还介绍了一些目前已有的研究成果和开源工具。
技术原理
手写语音输入技术的基本思路是,将字母转化成音频信号,在音频信号上提取特征,并根据特征来识别字母。通常使用的特征提取方法是MFCC(Mel frequency cepstral coefficients),再使用卷积神经网络(CNN)或者循环神经网络(RNN)来识别字母。由于该方法只需要较少的样本来训练模型,因此适用于移动设备等资源受限的场景。
实践应用
目前已有一些研究成果可以直接应用于移动设备中。例如,谷歌的手写语音输入系统(SoundWriter),使用RNN实现了实时的字母识别,并且在不需要联网的情况下准确率仍能达到93%以上。同时,谷歌也已经开源了SoundWriter的代码,方便研究者或者开发者进行二次开发。除此之外,还有基于CNN的手写语音输入系统DeepSpeech,由Mozilla开发并开源。该系统在大量样本的训练下,准确率接近人类。

Tags: