بازیابی پیشرفته اطلاعات

Modern Information Retrieval

شماره درس: ۴۰۳۲۴ تعداد واحد: ۳
مقطع: کارشناسی نوع درس: نظری
پیش‌نیاز: ساختمان داده‌ها و الگوریتم‌ها هم‌نیاز: –

اهداف درس

در این درس به معرفی سامانه‌های بازیابی اطلاعات پرداخته می‌شود. ابتدا به عملیات شاخص‌گذاری و مدل بازیابی اطلاعات بولین پرداخته می‌شود. سپس مدل فضای برداری و نمایش tf-idf مطرح می‌شود و در مورد تکنیک‌های سرعت بخشی به امتیازدهی و مرتب‌سازی اسناد بحث می‌شود. در ادامه مدل‌های احتمالاتی بازیابی اطلاعات معرفی می‌شوند و مفاهیم دسته‌بندی و خوشه‌بندی اسناد و همچنین یادگیری ترتیب‌دهی مطرح می‌شود. سپس موتورهای جست‌وجوی وب معرفی و اجزای مهمی نظیر خزشگر٬ تحلیل گراف اسناد و تشخیص اسناد مشابه مورد بررسی قرار می‌گیرند. در انتها به سامانه‌های توصیه‌گر و مفاهیم پیشرفته‌ی بازیابی اطلاعات اشاره‌ای می‌شود.

ریز مواد

  • مقدمهای بر بازیابی اطلاعات
  • معرفی سامانه‌‌های بازیابی اطلاعات بولین و نحوه‌ی شاخص‌گذاری (indexing)
  • پیش‌پردازش اسناد: عملیات متنی و نرمال‌سازی واژه‌ها
  • بازیابی اطلاعات به صورت مقاوم (tolerant)
    • پرسمان‌های wild-card
    • تصحیح غلط املایی (spelling correction)
  • شاخص‌گذاری بلوکی و توزیع شده (distributed)
    • Map-Reduce
  • فشرده‌سازی شاخص
    • فشرده‌سازی دیکشنری
    • فشرده‌سازی شاخص به روش‌های بایت-متغیر و گاما
  • مدل فضای برداری (Vector Space Model) و نمایش tf-idf
  • امتیازدهی و رتبه‌بندی اسناد (بهبود زمانی)
  • ارزیابی سامانه‌های بازیابی اطلاعات و معرفی معیارهای ارزیابی
  • مدل‌های بازیابی اطلاعات احتمالاتی
  • مدل‌های زبانی (Language models)
  • دسته‌بندی اسناد
    • دسته‌بند Naïve Bayes
    • دسته‌بندهای خطی
  • خوشه‌بندی اسناد
    • خوشه‌بندی k-means
    • خوشه‌بندهای سلسله‌مراتبی
  • یادگیری رتبه‌بندی اسناد (learning to rank)
  • کاهش ابعاد و تعبیه کلمات
    • Latent Semantic Indexing (LSI)
    • Word2vec
  • موتورهای جستجوی وب‌
    • خزشگر (crawler)
    • تشخیص اسناد مشابه (near-duplicate)
    • تحلیل گراف لینک‌ها و پیدا کردن PageRank
  • سامانه‌های توصیه‌گر (recommender systems)
    • روش‌های مبتنی بر محتوا (content-based)
    • روش‌های پالایش همکارانه (collaborative filtering)
    • روش‌های ترکیبی
  • معرفی مباحث پیشرفته
    • شخصی‌سازی (Personalization) بازیابی اطلاعات
    • بازیابی اطلاعات در شبکه‌های اجتماعی (social networks)
    • سامانه‌های پرسش و پاسخ
    • تحلیل تمایل (Sentiment Analysis)
    • بازیابی اطلاعات بین‌زبانی (corss-lingual)

ارزیابی

  • آزمون میان ترم: ۲۵٪
  • آزمون پایانی: ۳۵٪
  • پروژه: ۲۵٪
  • آزمون‌های کوتاه: ۱۰٪
  • کوئیزها: ۵٪

مراجع

  1. C.D. Manning, P. Raghavan, and H. Schutze. Introduction to Information Retrieval. Cambridge University Press, 2008.