梅爾編碼器說明書
TTS的核心組件包括文本處理聲學(xué)模型和聲碼器文本處理模塊接收文本輸入梅爾編碼器,提取語言學(xué)特征梅爾編碼器,如音素,并將其傳遞給聲學(xué)模型聲學(xué)模型進(jìn)一步解析為聲學(xué)特征,如梅爾譜,然后傳遞給聲碼器聲碼器將聲學(xué)特征轉(zhuǎn)換為波形文件,實(shí)現(xiàn)文本到語音的轉(zhuǎn)換在深度學(xué)習(xí)的背景下,TTS模型的架構(gòu)變得更為復(fù)雜且高效一個(gè)。
Tacotron模型通過文本輸入,經(jīng)過編碼器和解碼器結(jié)構(gòu),輸出Mel Spectrogram,再使用GriffinLim算法生成波形模型包含預(yù)處理層CBHG模塊和解碼器,其中預(yù)處理層通過減少計(jì)算量提升模型泛化能力,CBHG模塊用于高層次特征提取,解碼器則結(jié)合注意力機(jī)制和上下文向量生成Mel譜Tacotron2是在2017年由Google Brain提出。
wav2vec通過無監(jiān)督學(xué)習(xí)方式,為語音識(shí)別提供梅爾編碼器了一種有效的表示方法,這類表示可用于語音活動(dòng)檢測AST情感識(shí)別等任務(wù)它利用噪聲對比學(xué)習(xí)的方法,預(yù)測給定音頻信號未來某些采樣點(diǎn),通過將每個(gè)采樣點(diǎn)轉(zhuǎn)化為向量表示,再基于此預(yù)測某個(gè)后續(xù)采樣點(diǎn),以此訓(xùn)練模型模型包括兩個(gè)網(wǎng)絡(luò)編碼器網(wǎng)絡(luò)用于將輸入音頻。