目前来说离线语音芯片和在线语音芯片的应用前景都非常广泛,离线语音芯片和在线语音芯片的主要区别在于离线语音芯片无需依赖网络即可实现语音指令控制产品,一个需要联网来实现更好的语音交互功能,很多人也把在线语音芯片称之为AI交互语音芯片主要应用于产品的AI对话功能比如唯创知音的WT2606A和WT3000A。

离线语音芯片的工作原理讲解
这里以唯创知音的离线语音芯片WTK6900FC来举例,这款离线语音芯片支持四国语言分别是中文/英语/韩语/日语,同时还支持唤醒词10条、唤醒词自学习1条、命令词300条、命令词自学习19条。
以上这些功能都是直接在本地完成的,离线语音芯片通过声音采集、信号处理、语义识别、指令判断、指令执行这几个环节来实现离线语音控制功能的,下面我们一起来详细了解一下离线语音芯片的工作过程。
1.声音采集
人说话的时候会产生声波,麦克风(内置或外接)接收空气中的声波,通过声电转换原理,将声波振动转化为连续的模拟电信号(如电压变化)。模拟电信号会先经过一个简单的前置放大电路(增强弱信号)和抗混叠滤波器(过滤高频干扰)最终由
ADC 转换器按固定频率(如 16kHz 采样率)对模拟信号 “采样”,并将其量化为离散的数字信号(如 16 位精度的数字数据),存入
WTK6900FC的RAM 临时缓存。
2.信号处理
临时缓存当中的信号含有各种各样的环境噪音,比如在电风扇在工作状态下就会产生一些呜呜或者嗡嗡的声音,还有一些周边的环境声,如果直接识别这些声音则会影响识别准确率,所以我们的离线语音芯片WTK6900FC需要对这些“噪音”进行处理,采用专用算法(如谱减法、维纳滤波),通过分析
“语音信号” 与 “噪声信号” 的频率差异,剔除背景噪声,保留纯净的声音信号。
3.语义识别
离线语音芯片其实在业内的名称叫语音识别芯片,语义识别也是影响识别率非常重要的因素之一,离线语音芯片最常用的特征是MFCC(梅尔频率倒谱系数),其设计灵感源于人耳的听觉特性(人耳对不同频率的敏感度不同,对中低频更敏感)。过程如下
将每帧时域语音信号转换为频域信号,得到各频率成分的能量分布(傅里叶变换)
用一组模拟人耳听觉特性的 “梅尔滤波器” 对频域信号滤波,保留人耳敏感的频率成分,剔除不敏感成分(梅尔滤波组)

对滤波后的能量值取对数(模拟人耳对声音强度的对数感知),再通过 DCT 压缩数据,最终得到 12-16 维的MFCC
特征向量(每帧语音对应一个特征向量,数据量大幅减少)【对数与离散余弦变换(DCT)】。
除 MFCC 外,部分芯片也会用LPCC(线性预测倒谱系数)(基于语音的线性预测模型,计算量更小,适合低功耗场景)。
4.指令判断
因为多数离线语音芯片的一大优势就是响应快,但是受困于成本能够在市面上普及的离线语音大多数价格都比较亲民,成本限制了离线语音芯片的端侧算力,所以这几年的主流方案都是采用
CNN、RNN、Transformer 的轻量化版本 Tiny Transformer的模型,模型参数被压缩到几十 KB - 几 MB(适配芯片存储),通过本地
NPU/DSP 快速运算,输出 “是否匹配某指令” 的概率(如概率>90% 则判定识别成功。
5.指令执行
这一步就最简单了,指令识别成功以后可以通过通信的方式发给MCU,然后MCU驱动响应的功能打开。
以上这就是离线语音芯片的工作原理,离线语音芯片的特点是响应快,安全性高(不联网不用担心信息泄露)。
而在线语音芯片的工作原理是类似的,区别在于在线语音芯片可以通过云端算力来辅助识别,识别率会更高,同时可以接入大模型有更丰富的内容可以输出,但是缺点也比较明显因为需要上传信息到服务器并且等待大模型响应并返回,即便是使用流式传输也会有一定的延迟。
但是在线语音芯片+大模型这种方式,虽然在响应上比离线语音芯片多一些延迟,但是可以进行更丰富的玩法,比如给玩具赋能让玩具可以和孩子说话,让宝贝不再孤单,也可以接入自己设计的智能体充当语音说明书
,适合一些共享设备。

其实还有一款离在线语音芯片,这款芯片及支持离线使用也支持在线使用,完美的契合了两者的优点,目前主要面向需要AI对话的产品,为机器人、Ai玩具等产品赋予语音控制和开口说话的能力。
总结:离线语音芯片和在线语音芯片各有优劣,离在线语音芯片也很强,但是各自都有各自的使用场景,离线语音芯片你可以理解为语音遥控器或者声控芯片,而在线语音芯片你可以理解为AI对话芯片AI交互芯片,离在线语音芯片则是兼顾了遥控器和AI对话功能的完全体。