辅助电脑语音评分的方法.ppt
- 文档编号:2649942
- 上传时间:2022-11-05
- 格式:PPT
- 页数:34
- 大小:610KB
辅助电脑语音评分的方法.ppt
《辅助电脑语音评分的方法.ppt》由会员分享,可在线阅读,更多相关《辅助电脑语音评分的方法.ppt(34页珍藏版)》请在冰豆网上搜索。
AutomaticSpeechAnalysisforComputerAssistedSpokenEnglishLearningJui-LinLoAdvisor:
Jyh-ShingRogerJangOutlineuIntroductionuRelatedWorkuSolutionsforEnglishSpeechEvaluationuExperimentalResultsuConclusionandFutureWorkuDemoIntroductionu目的n運用語音辨識的一些技術建立合適的英文語音評分方式。
u模式n將使用者的語音和標準語音做比對。
uWhyimportant?
n密集的使用評分系統,可以糾正發音,並增進英文口說的能力。
RelatedWork2002李俊毅SpeechEvaluationChineseMagnitudePitchMFCC1999L.Neumeyer,H.Franco,V.Digalakis,M.WeintraubAutomaticScoringofPronunciationQualityFrenchHMMlog-likelihoodNormalizedacousticSegmentclassificationSegmentdurationTiming1997C.Cucchiarini,H.Strik,L.BovesAutomaticEvaluationofDutchPronunciationbyUsingSpeechRecognitionTechnologyDutchTotaldurationofspeechno/pluspauseMeansegmentdurationRateofspeechGloballog-likelihood1996L.Neumeyer,H.Franco,AutomaticText-IndependentPronunciationScoringofForeignLanguageStudentSpeechFrenchHMMlog-likelihoodSegmentclassificationSegmentdurationTimingFlowofEvaluationProcessuFlowChartofEnglishSpeechEvaluationSystem評分語音評分結果YESNO標準語音結束UtteranceVerification()u在許多情況下,我們不僅關心測試語料的內容,更關心語料的內容有多麼的可靠。
u針對不同的語料產生對應的數值,並依此對語料內容的正確性做出判斷,就是所謂的UtteranceVerification。
UtteranceVerification()語音訊號phoneme可信度iterbisearchusing1.聲學模型(HMM)2.語言模型(標準語音文字內容)驗證機制phoneme排名uFlowChartofUtteranceVerificationUtteranceVerification()u可信度求取phonemeu可信度求取sentenceForceAlignmentuCorpusTrainingn針對英語系國家及非英語系國家的使用者提供不同的聲學模型。
uForceAlignmentn使用語音辨識的技術搭配ForceAlignment將語音檔案切割出每個phoneme的時間區段。
CorpusTraining()u音訊格式n音訊取樣頻率16kHzn位元解析度16bitsNativespeakerTaiwanese男性錄音人數43823女性錄音人數19210總錄製人數63033訓練語料數46204684CorpusTraining()u將TIMIT的62個models刪減成40個。
n替換lAXR(butterX)ER(birdS)lNX(winnern)N(noonn)n分解lEN(buttonY)AH+N(On)lENG(WashingtonIE)IH+NG(IE)n刪除lPAUlEPIForceAlignment()u前處理n使用CMU(CarnegieMellonUniversity)字典進行標音,字典包含約十二萬個單字。
n產生樹狀網路(Tree-Net)提供程式執行辨識。
n前處理流程圖TextIamaboy.Sheisgood.:
Syllableay-ae-m-ax-b-oysh-iy-ih-z-g-uh-d:
Tree-NetN=113L=118I=0W=!
NULL:
ForceAlignment()u切割流程n利用Viterbi演算法,並透過聲學模型及語言模型,即可切割出獨立的phoneme。
n語音切割流程圖端點偵測語音訊號Featurephoneme39維梅爾倒頻譜參數iterbisearchusing1.聲學模型(HMM)2.語言模型(Tree-Net)EnglishSpeechEvaluationuFlowChartofEnglishSpeechEvaluation標準語音特徵擷取Feature1.Magnitude2.Pitch3.Rhythm4.Pronunciation評分語音特徵擷取Feature1.Magnitude2.Pitch3.Rhythm4.Pronunciation評分結果normalizationnormalizationFeatureuMagnituden代表音量強弱變化趨勢。
uPitchn代表音高變化趨勢uRhythmn代表說話的速度、節奏。
uPronunciationn代表發音、咬字。
Feature-Magnitudeu音量強度曲線求取公式:
表示每一音框中的語音訊號為音框總數為音框大小Feature-Pitchu基頻軌跡曲線擷取流程Low-passFilterFrameBlockingAMDFLocalMinimumPitch語音訊號每一音框皆經以下步驟Feature-Rhythmu利用ForceAlignment將語音訊號切割,即可得到每個phoneme的時間區段。
u擷取流程語音訊號Featurephoneme的時間區段39維梅爾倒頻譜參數iterbisearchusing1.聲學模型(HMM)2.語言模型(Tree-Net)Feature-Pronunciationu使用nativespeaker的聲學模型得到語音訊號中各phoneme的HMM對數機率。
u擷取流程語音訊號Feature各phoneme的對數機率39維梅爾倒頻譜參數iterbisearchusing1.Nativespeaker的聲學模型2.語言模型(Tree-Net)NormalizationuInterpolationn調整特徵參數的長度,使其相同。
uLinearScalingn解決錄音環境所造成的差異性。
uLinearShiftingn解決每個人聲調高低的差異性。
PatternMatching()uMagnitudenMagnitude比對重點為母音。
nMagnitude比對流程圖v2v1new_v2距離v2各phoneme以內插調整成v1長度以v1為基準做LinearScalingv1:
標準語音之Magnitudev2:
評分語音之Magnitude差異程度PatternMatching()uPitchnPitch比對重點為母音。
nPitch比對流程圖v2v1new_v2距離v2各phoneme以內插調整成v1長度以v1為基準做LinearShiftingv1:
標準語音之Pitchv2:
評分語音之Pitch差異程度PatternMatching()uRhythmn計算所有phoneme時間的差異程度。
nRhythm比對流程圖v1:
標準語音各phoneme之發音時間v2:
評分語音各phoneme之發音時間v2v1距離差異程度PatternMatching()uPronunciationnphoneme的機率愈大,表示該phoneme的發音愈接近聲學模型。
nPronunciation比對流程圖v1:
標準語音v2:
評分語音差異程度v2機率v1機率距離PatternMatching()u機率倍數(factorP)n修正發音特徵差異性n其求取公式如下:
PatternMatching()u機率倍數示意圖Evaluation()u評分公式phonemeu評分公式wordn表示的時間長度Evaluation()u評分公式featuren為句子中單字的總數u評分公式sentencen為四個特徵的權重ExperimentResult()uUtteranceVerificationnThresholdlThreshold=62.40nCorrectRateCorrectIncorrectAccept100.00%1.19%Reject0.00%98.81%CorrectIncorrectAccept92.86%0.60%Reject7.14%99.40%ExperimentResult()uForceAlignmentn(N,T)-WavelOutsidetestfromnativespeaker(N)orTaiwanese(T)n(N,T)-HMMlHMMtrainedfromnativespeaker(N)orTaiwanese(T)實驗方式項目N-WaveN-HMMN-WaveT-HMMT-WaveN-HMMT-WaveT-HMM實驗語料句子總數1680168023422342單字正確率99.14%28.08%81.14%82.69%音素正確率99.14%25.99%80.60%81.98%ExperimentResult()uEnglishSpeechEvaluationn評分語音l外語系5人、非外語系5人,共錄製200句評分語音。
l請外語系同學對每一組語音進行評分。
n使用SimplexDownhillSearch求出權重、a1a4、b1b4。
nMag=7.45%,Pit=22.40%,Rhy=17.24%,Pro=52.91%Conclusionu針對不同的使用者運用對應的聲學模型能夠使切割的phoneme有較正確的時間區段。
uPronunciation在英文語音評分中所佔權重最大,Magnitude對語音評分的重要性最小。
FutureWorku運用英文語音評分在語言學習系統。
u設計其它驗證機制來降低FalseAccept。
u透過專業的錄音設計,以錄製臺灣人的英文語料。
u利用大量專家的人工評分來提高評分系統權重的正確性。
u尋找其他更合理的評分機制。
Demou展示英文語音評分系統
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 辅助 电脑 语音 评分 方法