بازشناسی گفتار

Speech Recognition

شماره درس: ۴۰۸۳۳ تعداد واحد: ۳
مقطع: کارشناسی ارشد نوع درس: نظری
پیش‌نیاز: پردازش علائم دیجیتال هم‌نیاز: –

اهداف درس

هدف این درس آشنایی دانشجویان کارشناسی ارشد و دکترا با مفاهیم مطرح در بازشناسی گفتار و ابزارهای مورد استفاده به صورت کلاسیک و نیز ابزارهای جدید برای بازشناسی گفتار می‌باشد. در ابتدا مقدماتی در مورد تولید و درک گفتار و نیز واج‌شناسی تکلمی و صوتی ارائه می‌شود. سپس روش‌های پیش‌پردازش سیگنال گفتاری به منظور بازشناسی گفتار اعم از فیلتر بانک‌های مختلف و روش‌های مرسوم دیگر مورد بحث قرار می‌گیرد. معیارهای مختلف مقایسه الگو، روش پیچش زمانی پویا، مدل پنهان مارکوف و روش‌های آموزش و بازشناسی با آن نیز مطرح می‌شود. سپس وظایف سامانه‌های بازشناسی در سه بخش بازشناسی کلمات گسسته، کلمات متصل و گفتار پیوسته مورد بحث قرار می‌گیرد و نیز ساختار شبکه‌های عصبی ژرف و نحوه کاربرد و نتایج حاصل از آن‌ها در بازشناسی گفتار پیوسته مطرح می‌گردد.

ریز مواد

  1. مقدمات
    • مقدمه ای بر بازشناسی گفتار
    • تولید گفتار، اکوستیک-فونتیک، مدل گویایی
    • درک گفتار، مدل‌های گوش، مدل‌های شنیداری
    • خواندن طیف‌نگار (spectrogram)
  2. پیش‌پردازش گفتار
    • بانک فیلترها
    • چندی سازی برداری
    • ضرایب پیشگویی خطی
    • ضرایب مل کپسترال
  3. مقایسه الگو
    • انواع معیارهای فاصله
    • فواصل کپسترال
    • فواصل درستنمایی
    • فواصل باند بحرانی
    • ویژگیهای پویا در معیارهای فاصله
  4. پیچش زمانی پویا
    • ترازبندی و هنجارسازی زمانی
    • ملاحظات برنامه‌ریزی پویا
    • محدودیت‌های هنجارسازی زمانی
  5. مدل پنهان مارکوف
    • زنجیره مارکوف گسسته
    • مدل پنهان مارکوف
    • الگوریتم ویتربی
    • حل سه مسئله اساسی HMM
    • انواع HMM
    • بازشناسی کلمات گسسته با HMM
  6. بازشناسی کلمات متصل
    • الگوریتم دوسطحی برنامه‌ریزی پویا
    • الگوریتم سطح سازی
    • به‌کارگیری شبکه دستوری
    • الگوریتم one-pass
  7. بازشناسی پیوسته با واژگان بزرگ
    • واحدهای گفتاری زیرواژه
    • مدل‌های زبانی برای LVCSR
    • سرگشتگی
    • گرامر زوج کلمه
    • گره‌زدن حالات و درخت تصمیم‌گیری
  8. راهبردهای جستجو در بازشناسی گفتار
    • جستجوی شعاعی
    • جستجوی A*
    • جستجوی گرامری
    • جستجوی درختی
    • جستجوی برخط
    • ایجاد تعادل بین خطاهای درج و حذف
    • تشخیص کلمات خارج از واژگان
  9. شبکه‌های ژرف در بازشناسی گفتار
    • سامانه‌های بازشناسی مرسوم: HMM/DNN
    • جایگزینی GMMها با ANN
    • شبکه‌های باور ژرف، شبکه‌های عصبی ژرف، ماشین محدود بولتزمان
    • جایگزینی HMMها با ANN
    • سامانه‌های بازشناسی گفتار ابتدا به انتها

ارزیابی

  • تکالیف تئوری و عملی: ۲۰٪
  • کوییزها: ۱۵٪
  • پروژه درسی: ۱۰٪
  • امتحان نیم‌ترم: ۲۵٪
  • امتحان پایان ترم: ۳۰٪

مراجع

  1. Rabiner & Juang, Fundamentals of Speech Recognition, Prentice-Hall, 1993.
  2. Huang, Acero & Hon, Spoken Language Processing, Prentice Hall, 2001.
  3. Dong Yu & Li Deng, Automatic Speech Recognition, A Deep Learning Approach, Springer-Verlag, 2015.
  4. Deller, Proakis & Hansen. Discrete-time processing of speech signals, Prentice Hall, 1999.