پردازش گفتار

Speech Processing

شماره درس: ۴۰۹۶۷ تعداد واحد: ۳
مقطع: کارشناسی ارشد نوع درس: نظری
پیش‌نیاز: – هم‌نیاز: –

اهداف درس

هدف این درس آشنایی دانشجویان کارشناسی ارشد و دکترا با مفاهیم مطرح در پردازش گفتار و کاربردهای مختلف آن و نیز روش‌های پایه و روش‌های جدید در هریک از زمینه‌های کاربردی است. در ابتدا مروری بر مفاهیم و تعاریف مربوط به پردازش علائم دیجیتال و نیز آمار و احتمال مهندسی انجام می‌گیرد. سپس ساختار تکلمی و شنوایی انسان و مباحث آواشناسی تکلمی و آواشناسی صوتی آموزش داده می‌شود. همچنین مدل پیشگویی خطی ارائه می‌شود. سپس کاربردهای مطرح در پردازش گفتار شامل فشرده‌سازی و کدینگ گفتار براساس شکل موج و نیز وکدرها، روش‌های سنتز گفتار، معیارهای ارزیابی کیفیت سیگنال گفتاری و نیز اصول بازشناسی گفتار و روش‌های آن در کلاس بحث می‌شود.

ریز مواد

  1. مروری بر مفاهیم پردازش سیگنال: بررسی زمان-فرکانس، تبدیل فوریه زمان کوتاه
  2. مروری بر احتمال و فرآیندهای تصادفی
  3. ساختار تکلمی و ساختار شنوایی انسان
  4. آواشناسی و واج‌شناسی
    • بررسی واج‌های زبان انگلیسی
    • بررسی واج‌های زبان فارسی
  5. طیف‌نگار گفتار و نحوه خواندن آن
  6. مدل پیشگویی خطی
  7. فشرده سازی و کدکردن گفتار
    • کدگذاری شکل موج : PCM, DPCM, ADPCM، DM
    • وکدرها: وکدر کانال، وکدر فاز، وکدر فرمنت، LPC10، RELP، MPLPC ، CELP، VSELP، MELP، MBE
  8. مدل پنهان مارکوف و حل مسائل سه‌گانه آن
    • روش آموزش باوم-ولش
    • الگوریتم ویتربی
  9. سنتز گفتار
    • انواع سنتز گفتار، انتخاب واحدهای آوایی
    • روش‌های الحاقی، روش انتخاب واحد
    • مدل Klatt
    • سنتز مبتنی بر مدل پنهان مارکوف
    • سنتز مبتنی بر شبکه‌های ژرف
  10. ارزیابی کیفیت گفتار
    • روش‌های ذهنی و عینی، کیفیت و قابلیت فهم گفتار،
    • DRT، MRT، MOS، DAM، AI، SNR، Itakura، PESQ
  11. بازشناسی گفتار
    • تعاریف، رویکردها، دسته‌بندی سامانه‌های بازشناسی
    • نظریه‌های مطرح در بازشناسی گفتار
    • مدل زبانی، مدل آکوستیکی

ارزیابی

  • تکالیف تئوری و عملی: ۲۰٪
  • کوییزها: ۱۵٪
  • پروژه درسی: ۱۰٪
  • امتحان نیم‌ترم: ۲۵٪
  • امتحان پایان ترم: ۳۰٪

مراجع

  1. Spoken language processing, Huang, Acero, Hon, 2001.
  2. Introduction to Digital Speech Processing, Lawrence R. Rabiner and Ronald W. Schafer, 2007.
  3. Discrete time processing of speech Signals, Deller,Proakis,Hansen, 1993.