ابزار کاربر

ابزار سایت


درس:۴۰۸۳۳

بازشناسی گفتار

Speech Recognition

شماره درس: ۴۰۸۳۳ تعداد واحد: ۳
مقطع: کارشناسی ارشد نوع درس: نظری
پیش‌نیاز: – هم‌نیاز: –

اهداف درس

هدف این درس آشنایی دانشجویان کارشناسی ارشد و دکترا با مفاهیم مطرح در بازشناسی گفتار و ابزارهای مورد استفاده به صورت کلاسیک و نیز ابزارهای جدید برای بازشناسی گفتار می‌باشد. در ابتدا مقدماتی در مورد تولید و درک گفتار و نیز واج‌شناسی تکلمی و صوتی ارائه می‌شود. سپس روش‌های پیش‌پردازش سیگنال گفتاری به منظور بازشناسی گفتار اعم از فیلتر بانک‌های مختلف و روش‌های مرسوم دیگر مورد بحث قرار می‌گیرد. معیارهای مختلف مقایسه الگو، روش پیچش زمانی پویا، مدل پنهان مارکوف و روش‌های آموزش و بازشناسی با آن نیز مطرح می‌شود. سپس وظایف سامانه‌های بازشناسی در سه بخش بازشناسی کلمات گسسته، کلمات متصل و گفتار پیوسته مورد بحث قرار می‌گیرد و نیز ساختار شبکه‌های عصبی ژرف و نحوه کاربرد و نتایج حاصل از آنها در بازشناسی گفتار پیوسته مطرح می‌گردد.

ریز مواد

  1. مقدمات
    • مقدمه اي بر بازشناسي گفتار
    • توليد گفتار، اكوستيك-فونتيك، مدل گويايي
    • درك گفتار، مدل‌هاي گوش، مدل‌هاي شنيداري
    • خواندن طيف‌نگار (spectrogram)
  2. پيش‌پردازش گفتار
    • بانک فيلترها
    • چندي سازي برداري
    • ضرايب پيشگويي خطي
    • ضرايب مل كپسترال
  3. مقايسه الگو
    • انواع معيارهاي فاصله
    • فواصل کپسترال
    • فواصل درستنمايي
    • فواصل باند بحراني
    • ويژگيهاي پويا در معيارهاي فاصله
  4. پيچش زماني پويا
    • ترازبندي و هنجارسازي زماني
    • ملاحظات برنامه‌ريزي پويا
    • محدوديت‌هاي هنجارسازي زماني
  5. مدل پنهان ماركوف
    • زنجيره مارکوف گسسته
    • مدل پنهان مارکوف
    • الگوريتم ويتربي
    • حل سه مسئله اساسي HMM
    • انواع HMM
    • بازشناسي کلمات گسسته با HMM
  6. بازشناسي کلمات متصل
    • الگوريتم دوسطحي برنامه‌ريزي پويا
    • الگوريتم سطح سازي
    • به‌کارگيري شبکه دستوري
    • الگوريتم one-pass
  7. بازشناسي پيوسته با واژگان بزرگ
    • واحدهاي گفتاري زيرواژه
    • مدل‌هاي زباني براي LVCSR
    • سرگشتگي
    • گرامر زوج کلمه
    • گره‌زدن حالات و درخت تصميم‌گيري
  8. راهبردهاي جستجو در بازشناسي گفتار
    • جستجوي شعاعي
    • جستجوي A*
    • جستجوي گرامري
    • جستجوي درختي
    • جستجوي برخط
    • ايجاد تعادل بين خطاهاي درج و حذف
    • تشخيص کلمات خارج از واژگان
  9. شبکه‌هاي ژرف در بازشناسي گفتار
    • سامانه‌هاي بازشناسي مرسوم: HMM/DNN
    • جايگزيني GMMها با ANN
    • شبکه‌هاي باور ژرف، شبکه‌هاي عصبي ژرف، ماشين محدود بولتزمان
    • جايگزيني HMMها با ANN
    • سامانه‌هاي بازشناسي گفتار ابتدا به انتها

ارزیابی

  • تکالیف تئوری و عملی: ۲۰٪
  • کوییزها: ۱۵٪
  • پروژه درسی: ۱۰٪
  • امتحان نیم‌ترم: ۲۵٪
  • امتحان پایان ترم: ۳۰٪

مراجع

  1. Rabiner & Juang, Fundamentals of Speech Recognition, Prentice-Hall, 1993.
  2. Huang, Acero & Hon, Spoken Language Processing, Prentice Hall, 2001.
  3. Dong Yu & Li Deng, Automatic Speech Recognition, A Deep Learning Approach, Springer-Verlag, 2015
  4. Deller, Proakis & Hansen. Discrete-time processing of speech signals, Prentice Hall, 1999.
درس/۴۰۸۳۳.txt · آخرین ویرایش: 2021/06/28 22:28 توسط محمد حسین رهبان