IBM使用深度学习技术达成了语音识别领域的一个新的里程碑-Linuxeden开源社区

作者 Srini Penchikala ，译者 Rays

最近，IBM的一个研究团队宣布他们在语音识别上创造了一个新的业界纪录，在使用SWITCHBOARD语料库的情况下词错误率为5.5%，接近于人类的错误率5.1%。人们一般会在所听到的20个单词中遗失其中的一到两个。在一次五分钟左右的对话中，大约会遗失80个词。

研究计划中包括深度学习技术的应用和声学模型的集成。其中语音识别模型使用了长短期记忆（LSTM，Long Short Term Memory）和 WaveNet语言模型。在声学模型上，他们使用了三个模型的分数融合（Score Fusion）。第一个模型是有多特征输入的LSTM，第二个模型是经过说话者对抗多任务学习（Speaker-adversarial Multi-task Learning）训练后的LSTM。第三个模型是具有25个卷积层与时间扩张（Time-dilated）卷积的残差网络（ResNet）。最后一个模型不仅从正向的例子中学习，而且也使用了负向的例子，因此当类似的语音模式重现时，会具有更好的表现。

来自蒙特利尔大学蒙特利尔学习算法实验室（Montreal Institute for Learning Algorithms ）的Yoshua Bengio对语音识别技术是如此评论的：

在过去的几年中，尽管在语音识别或物体识别等人工智能领域取得了巨大的进展，技术上也已经接近于人类的水平，但在科学上依然存在着挑战。诚然，标准的基准测试并非总能揭示真实数据的多样性和复杂度。例如，不同的数据集对于不同的任务会呈现出不一样的敏感性，而且结果十分依赖于如何对被测试人员进行评估，比如使用专业的誊写员进行语音识别测试。

他也指出，IBM的这项研究将声学模型与语言模型应用于神经网络与深度学习，有助于推进语音识别技术的发展。

另据一些语音识别相关的新闻报道，IBM已将Diarization添加到他们的“Watson语音转文本”服务中。这一技术有助于一些用例的实现，例如识别交谈中的各方发言者。所有这些成就所带来的技术有助于解决人类耳朵、声音和大脑交互复杂性的问题。

查看英文原文： Using Deep Learning Technologies IBM Reaches a New Milestone in Speech Recognition

转自 http://www.infoq.com/cn/news/2017/04/ibm-speech-recognition

相关推荐