登录
首页大数据时代关于python语音识别,那还需要掌握这些内容
关于python语音识别,那还需要掌握这些内容
2020-07-22
收藏

我们都知道python是一款功能强大的数据分析工具,而且使用起来相对简单,被广泛应用于数据分析,web开发,人工智能等很多领域。语音识别,也叫作自动语音识别,其是以计算机自动将人类的语音内容转换为相应文字为目标。语音识别的应用范围,包括、简单的听写数据录入,语音拨号、语音导航、室内设备控制、语音文档检索等等。当语言识别遇上python,其实现将会变得更简单,快捷。今天小编与大家分享的就是python语音识别的一些基础知识,希望对大家有所帮助。

一、python语音识别原理

语音识别的首要任务是语音,通常通过麦克风,语音就能够从物理声音转换为电信号,之后再被转换为数据。语音一旦被数字化,就能够适用若干模型,最终转换为文本。

目前现代大多数语音识别系统,都是基于隐马尔可夫模型(HMM)。这一模型的工作原理为:语音信号在极短的时间尺度上,例如10 毫秒,能够被近似为静止过程,也就是一个统计特性不随时间变化的过程。而python语音识别技术, 一些服务能够通过 API 在线使用,并且大部分都提供了 Python SDK。

二、选择python 语音识别包

apiai

google-cloud-speech

pocketsphinx

SpeechRcognition

watson-developer-cloud

wit

其中, SpeechRcognition为最便捷的一种。

因为语音识别首先需要输入音频,而 SpeechRecognition 检索音频输入是极为简便快捷的,我们并不需要构建访问麦克风,也不需要从头开始处理音频文件的脚,SpeechRecognition 仅仅几分钟就能自动完成检索并运行。

SpeechRecognition 库能够满足几种主流语音 API ,灵活性非常高。例如: Google Web Speech API 支持硬编码到 SpeechRecognition 库中的默认 API 密钥,不需要注册就能直接使用。因此,SpeechRecognition 由于具有灵活性和易用性的优点,成为编写 Python 程序的最佳选择。

三、python 语音识别

import numpy as np
import scipy.io.wavfile as wf
import python_speech_features as sf
import hmmlearn.hmm as hl

# 提取样本信息
train_x,train_y = [],[]
mfccs = np.array([])
for sound_files in files_list:
    for sound_file in sound_files:
        sample_rate,sigs = wf.read(sound_file)
        mfcc = sf.mfcc(sigs,sample_rate)
        # 将mfcc矩阵添加到mfccs中
        if len(mfccs) == 0:
            mfccs == mfcc
        else:
            mfccs = np.append(mfccs,mfcc)
    # 将mfccs矩阵列表添加到训练集中  
    train_x.append(mfccs)
# 最终的train_x len(sound_files)个特征的矩阵
# train_y存的是特征标签,比如:apple,banana,pear

# 构建并训练隐马模型
models = {}
for mfccs,label in zip(train_x,train_y):
    model = hl.GaussianHMM(
        n_components = 4, covariance_type = 'diag',
        n_iter = 1000
    )
    models[label] = model.fit(mfccs)

# 同样方法获取测试集数据
# 测试
pred_y = []
for mfccs in test_x: 
    # 验证每个模型对当前mfcc的匹配度得分
    best_score, best_label = None, None
    for label, model in models.items():
        score = model.score(mfccs)
        if (best_score is None) or (best_score < score):
            best_score = score
            best_label = label
    pred_y.append(best_label)

print(test_y)
print(pred_y)

数据分析咨询请扫描二维码

客服在线
立即咨询