
語音識別培訓(xùn)
第一節(jié)
內(nèi)容:前世今生——語音識別的發(fā)展過程簡介;
這一節(jié)將介紹語音識別技術(shù)自二十世紀(jì)五十年代誕生以來的簡要發(fā)展歷史,按照核心技術(shù)的發(fā)展層次劃分為幾個時期,
簡要介紹語音識別過程的主要組成部分,比如:語音信號預(yù)處理,聲學(xué)模型,語音模型,建模與評價方法等。
第二節(jié)
內(nèi)容:糧草先行——語音信號預(yù)處理;
這一節(jié)將介紹作為語音識別系統(tǒng)前端的信號預(yù)處理技術(shù),按照不同場景的分類,講述傳統(tǒng)的單通道、
多通道信號處理技術(shù),同時結(jié)合實(shí)例,說明語音信號預(yù)處理在語音識別系統(tǒng)中的常用實(shí)現(xiàn)方法和重要作用。
這里的實(shí)例包括:語音識別云服務(wù),會議室麥克風(fēng)定位,智能手機(jī)和平板電腦上的麥克風(fēng)設(shè)置。
第三節(jié)
內(nèi)容:刀光劍影——聲學(xué)模型的建模與評價方法;
這一節(jié)將介紹語音識別系統(tǒng)中為核心的部分,即聲學(xué)模型的建模過程,簡要介紹聲學(xué)模型建模方法的發(fā)展歷史,
重點(diǎn)分析目前主流的建模方法,適當(dāng)講解前沿的研究內(nèi)容。
目前工業(yè)界主要采用的建模方法是GMM+HMM,其正在向DNN+HMM演進(jìn),
因此這里將以GMM+HMM的框架為主進(jìn)行講解,同時適當(dāng)介紹DNN+HMM的框架。可以安排工業(yè)界的實(shí)例,但是不安排講解具體的開源工具代碼。
第四節(jié)
內(nèi)容:處變不驚——語言模型的建模與評價方法;
這一節(jié)介紹主流的語音模型的建模過程,不同于聲學(xué)模型的發(fā)展,語音模型相對固定,
這里只需要講解常用的語言模型工具即可,同時完整回顧從語音信號預(yù)處理到終識別結(jié)果的系統(tǒng)框架,語音識別系統(tǒng)性的介紹完成。
第五節(jié)
內(nèi)容:初放新英——語音識別前沿簡介;