پردازش گفتار
Speech Processing
شماره درس: ۴۰۹۶۷ | تعداد واحد: ۳ |
مقطع: کارشناسی ارشد | نوع درس: نظری |
پیشنیاز: – | همنیاز: – |
اهداف درس
هدف این درس آشنایی دانشجویان کارشناسی ارشد و دکترا با مفاهیم مطرح در پردازش گفتار و کاربردهای مختلف آن و نیز روشهای پایه و روشهای جدید در هریک از زمینههای کاربردی است. در ابتدا مروری بر مفاهیم و تعاریف مربوط به پردازش علائم دیجیتال و نیز آمار و احتمال مهندسی انجام میگیرد. سپس ساختار تکلمی و شنوایی انسان و مباحث آواشناسی تکلمی و آواشناسی صوتی آموزش داده میشود. همچنین مدل پیشگویی خطی ارائه میشود. سپس کاربردهای مطرح در پردازش گفتار شامل فشردهسازی و کدینگ گفتار براساس شکل موج و نیز وکدرها، روشهای سنتز گفتار، معیارهای ارزیابی کیفیت سیگنال گفتاری و نیز اصول بازشناسی گفتار و روشهای آن در کلاس بحث میشود.
ریز مواد
- مروری بر مفاهیم پردازش سیگنال: بررسی زمان-فرکانس، تبدیل فوریه زمان کوتاه
- مروری بر احتمال و فرآیندهای تصادفی
- ساختار تکلمی و ساختار شنوایی انسان
- آواشناسی و واجشناسی
- بررسی واجهای زبان انگلیسی
- بررسی واجهای زبان فارسی
- طیفنگار گفتار و نحوه خواندن آن
- مدل پیشگویی خطی
- فشرده سازی و کدکردن گفتار
- کدگذاری شکل موج : PCM, DPCM, ADPCM، DM
- وکدرها: وکدر کانال، وکدر فاز، وکدر فرمنت، LPC10، RELP، MPLPC ، CELP، VSELP، MELP، MBE
- مدل پنهان مارکوف و حل مسائل سهگانه آن
- روش آموزش باوم-ولش
- الگوریتم ویتربی
- سنتز گفتار
- انواع سنتز گفتار، انتخاب واحدهای آوایی
- روشهای الحاقی، روش انتخاب واحد
- مدل Klatt
- سنتز مبتنی بر مدل پنهان مارکوف
- سنتز مبتنی بر شبکههای ژرف
- ارزیابی کیفیت گفتار
- روشهای ذهنی و عینی، کیفیت و قابلیت فهم گفتار،
- DRT، MRT، MOS، DAM، AI، SNR، Itakura، PESQ
- بازشناسی گفتار
- تعاریف، رویکردها، دستهبندی سامانههای بازشناسی
- نظریههای مطرح در بازشناسی گفتار
- مدل زبانی، مدل آکوستیکی
ارزیابی
- تکالیف تئوری و عملی: ۲۰٪
- کوییزها: ۱۵٪
- پروژه درسی: ۱۰٪
- امتحان نیمترم: ۲۵٪
- امتحان پایان ترم: ۳۰٪
مراجع
- Spoken language processing, Huang, Acero, Hon, 2001.
- Introduction to Digital Speech Processing, Lawrence R. Rabiner and Ronald W. Schafer, 2007.
- Discrete time processing of speech Signals, Deller,Proakis,Hansen, 1993.