新闻资讯 News

语音识别芯片的前世今生

日期: 2025-06-17
浏览次数: 2

语音识别芯片现在已经成为了市场上的主流方案了,几乎高级一点的产品都要带上语音识别芯片,主要原因就是语音识别芯片可以做到识别人说话并转化成指定去控制对应的功能。下面小编就带大家一起去了解语音识别芯片的前世今生。

语音识别芯片现在已经成为了市场上的主流方案了,几乎高级一点的产品都要带上语音识别芯片,主要原因就是语音识别芯片可以做到识别人说话并转化成指定去控制对应的功能。下面小编就带大家一起去了解语音识别芯片的前世今生。  1952 年,埃德瓦尔德(Everett)和科尔特(Kleitman)发表了《计算机识别人类语音》的论文,开启了语音识别技术的研究大门。当时的语音识别主要集中在小词汇量、孤立词、特定人语音识别方法上,采用简单的模板匹配方法,如动态时间规整(DTW)、支持向量机(SVM)、矢量量化(VQ)等主流算法。这个时期的技术局限性较大,例如对同一个人,在其感冒等情况下声音发生变化就可能无法识别,而且命令词较多时识别效率很低。  概率统计型方法兴起(1993 年 - 2009 年):主流技术是高斯混合模型 - 隐马尔可夫模型(GMM - HMM)。HMM 模型在将语音转换为文本的过程中,增加了音素和状态两个转换单位,GMM 则将状态的特征分布用概率模型来表述,提升了语音帧到状态的准确率。基于

1952 年,埃德瓦尔德(Everett)和科尔特(Kleitman)发表了《计算机识别人类语音》的论文,开启了语音识别技术的研究大门。当时的语音识别主要集中在小词汇量、孤立词、特定人语音识别方法上,采用简单的模板匹配方法,如动态时间规整(DTW)、支持向量机(SVM)、矢量量化(VQ)等主流算法。这个时期的技术局限性较大,例如对同一个人,在其感冒等情况下声音发生变化就可能无法识别,而且命令词较多时识别效率很低。


概率统计型方法兴起(1993 年 - 2009 年):主流技术是高斯混合模型 - 隐马尔可夫模型(GMM - HMM)。HMM 模型在将语音转换为文本的过程中,增加了音素和状态两个转换单位,GMM 则将状态的特征分布用概率模型来表述,提升了语音帧到状态的准确率。基于 GMM - HMM 框架,后续又提出了许多改进方法,如动态贝叶斯方法、区分性训练方法、自适应训练方法、HMM/NN 混合模型方法等。然而,GMM + HMM 模型在大词汇量的语音识别情况下,识别准确率和效率均比较差。


语音识别芯片开始出现:早期的语音识别芯片配置等同于通用的低端 MCU,以台湾新塘为代表的厂商推出了相关产品。例如,新塘 Nuvoton 在 2011 年推出了 ARM 架构的 MCU 芯片 - ISD9160,之后结合台湾赛维的语音算法,在 2016 年前后受到家电圈广泛关注,但受限于技术不成熟,出现语音识别率较低、降噪效果差、误识别率高等问题。


深度神经网络技术主导:2009 年至今,深度神经网络识别成为最主流的语音识别技术类型,包括深度神经网络 / 深信度网络 - 隐马尔可夫(DNN/DBN - HMM)、递归神经网络 RNN 及其改进版 LSTM&BLSTM、卷积神经网络 CNN 等。这些技术不再需要 HMM 来描述音素内部状态的变化,而是将语音识别的所有模块统一成神经网络模型。国内大厂也纷纷推出自己的技术,如科大讯飞的深度全序列卷积神经网络(DFCNN)、阿里的 LFR - DFSMN、百度的 SMLTA、Kaldi 。


以为唯创知音旗下的语音识别芯片系列WTK6900系列为例,这类型的语义识别芯片有多个扩展方案,同时还能实现本地指令+云端指令,几乎可以覆盖消费级和工业级的场景,广泛应用于智能家居和智能工业设备。


回到顶部
  • 您的姓名:
  • *
  • 公司名称:
  • *
  • 地址:
  • *
  • 电话:
  • *
  • 传真:
  • *
  • E-mail:
  • *
  • 邮政编码:
  • *
  • 留言主题:
  • *
  • 详细说明:
  • *
     
深圳市宝安区福永街道大洋路90号中粮福
安机器人智造产业园6栋2/3层 
WT1999@waytronic.com
4008-122-919
  • 手机云网站
  • 微信公众号
  •  

    Copyright ©2005 - 2016 深圳唯创知音电子有限公司

    粤公网安备 44030602001141号