Skip to content

基于pytorch的语音唤醒系统

介绍:

  1. iphone的 hi siri(只有你一人唤醒): 语音唤醒 + 声纹识别
  2. 小爱同学(任何人都可以唤醒):语音唤醒

技术类型

声纹识别的前提是,首先要拿到你的声音特征; 语音唤醒的前提是,该设备得一直对声音处于监听状态。

语音识别的三个方向

  1. 语音解锁
  2. asr
  3. 声音克隆 tips:AI处理的是特征、信息,ai本质是做的向量计算

声音采集

  1. 语音就是一段波形的序列,一段声音频谱图,原始的声音一定是一段连续的波形图;
  2. 计算机无法存储连续数据的,只能存离散数据,问题来了,怎样将连续数据转成离散数据呢?通过一个技术,这个技术叫采样,什么叫做采样呢,就是在一段波形上面,采集一些点的数据,声音采集上有一个重要的东西,叫采样率,就是1s中在这个波形上采多少个点,采样率越高,采的点越多,采的离散的数据越多,还原回来的效果越好

语音唤醒的流程

1、确定唤醒词 2、采集数据: 正样本:包含唤醒词的声音片段 负样本:环境噪音(没有声音或者正常的环境噪音;有人谈话,但不包含唤醒词) 3、制作dataset

除了自己训练模型外,还有业务中唤醒词唤醒还有什么其他方案?

待补充