بازشناسی گفتار
Speech Recognition
شماره درس: ۴۰۸۳۳ | تعداد واحد: ۳ |
مقطع: کارشناسی ارشد | نوع درس: نظری |
پیشنیاز: پردازش علائم دیجیتال | همنیاز: – |
اهداف درس
هدف این درس آشنایی دانشجویان کارشناسی ارشد و دکترا با مفاهیم مطرح در بازشناسی گفتار و ابزارهای مورد استفاده به صورت کلاسیک و نیز ابزارهای جدید برای بازشناسی گفتار میباشد. در ابتدا مقدماتی در مورد تولید و درک گفتار و نیز واجشناسی تکلمی و صوتی ارائه میشود. سپس روشهای پیشپردازش سیگنال گفتاری به منظور بازشناسی گفتار اعم از فیلتر بانکهای مختلف و روشهای مرسوم دیگر مورد بحث قرار میگیرد. معیارهای مختلف مقایسه الگو، روش پیچش زمانی پویا، مدل پنهان مارکوف و روشهای آموزش و بازشناسی با آن نیز مطرح میشود. سپس وظایف سامانههای بازشناسی در سه بخش بازشناسی کلمات گسسته، کلمات متصل و گفتار پیوسته مورد بحث قرار میگیرد و نیز ساختار شبکههای عصبی ژرف و نحوه کاربرد و نتایج حاصل از آنها در بازشناسی گفتار پیوسته مطرح میگردد.
ریز مواد
- مقدمات
- مقدمه ای بر بازشناسی گفتار
- تولید گفتار، اکوستیک-فونتیک، مدل گویایی
- درک گفتار، مدلهای گوش، مدلهای شنیداری
- خواندن طیفنگار (spectrogram)
- پیشپردازش گفتار
- بانک فیلترها
- چندی سازی برداری
- ضرایب پیشگویی خطی
- ضرایب مل کپسترال
- مقایسه الگو
- انواع معیارهای فاصله
- فواصل کپسترال
- فواصل درستنمایی
- فواصل باند بحرانی
- ویژگیهای پویا در معیارهای فاصله
- پیچش زمانی پویا
- ترازبندی و هنجارسازی زمانی
- ملاحظات برنامهریزی پویا
- محدودیتهای هنجارسازی زمانی
- مدل پنهان مارکوف
- زنجیره مارکوف گسسته
- مدل پنهان مارکوف
- الگوریتم ویتربی
- حل سه مسئله اساسی HMM
- انواع HMM
- بازشناسی کلمات گسسته با HMM
- بازشناسی کلمات متصل
- الگوریتم دوسطحی برنامهریزی پویا
- الگوریتم سطح سازی
- بهکارگیری شبکه دستوری
- الگوریتم one-pass
- بازشناسی پیوسته با واژگان بزرگ
- واحدهای گفتاری زیرواژه
- مدلهای زبانی برای LVCSR
- سرگشتگی
- گرامر زوج کلمه
- گرهزدن حالات و درخت تصمیمگیری
- راهبردهای جستجو در بازشناسی گفتار
- جستجوی شعاعی
- جستجوی A*
- جستجوی گرامری
- جستجوی درختی
- جستجوی برخط
- ایجاد تعادل بین خطاهای درج و حذف
- تشخیص کلمات خارج از واژگان
- شبکههای ژرف در بازشناسی گفتار
- سامانههای بازشناسی مرسوم: HMM/DNN
- جایگزینی GMMها با ANN
- شبکههای باور ژرف، شبکههای عصبی ژرف، ماشین محدود بولتزمان
- جایگزینی HMMها با ANN
- سامانههای بازشناسی گفتار ابتدا به انتها
ارزیابی
- تکالیف تئوری و عملی: ۲۰٪
- کوییزها: ۱۵٪
- پروژه درسی: ۱۰٪
- امتحان نیمترم: ۲۵٪
- امتحان پایان ترم: ۳۰٪
مراجع
- Rabiner & Juang, Fundamentals of Speech Recognition, Prentice-Hall, 1993.
- Huang, Acero & Hon, Spoken Language Processing, Prentice Hall, 2001.
- Dong Yu & Li Deng, Automatic Speech Recognition, A Deep Learning Approach, Springer-Verlag, 2015.
- Deller, Proakis & Hansen. Discrete-time processing of speech signals, Prentice Hall, 1999.