بازیابی پیشرفته اطلاعات
Modern Information Retrieval
شماره درس: ۴۰۳۲۴ | تعداد واحد: ۳ |
مقطع: کارشناسی | نوع درس: نظری |
پیشنیاز: ساختمان دادهها و الگوریتمها | همنیاز: – |
اهداف درس
در این درس به معرفی سامانههای بازیابی اطلاعات پرداخته میشود. ابتدا به عملیات شاخصگذاری و مدل بازیابی اطلاعات بولین پرداخته میشود. سپس مدل فضای برداری و نمایش tf-idf مطرح میشود و در مورد تکنیکهای سرعت بخشی به امتیازدهی و مرتبسازی اسناد بحث میشود. در ادامه مدلهای احتمالاتی بازیابی اطلاعات معرفی میشوند و مفاهیم دستهبندی و خوشهبندی اسناد و همچنین یادگیری ترتیبدهی مطرح میشود. سپس موتورهای جستوجوی وب معرفی و اجزای مهمی نظیر خزشگر٬ تحلیل گراف اسناد و تشخیص اسناد مشابه مورد بررسی قرار میگیرند. در انتها به سامانههای توصیهگر و مفاهیم پیشرفتهی بازیابی اطلاعات اشارهای میشود.
ریز مواد
- مقدمهای بر بازیابی اطلاعات
- معرفی سامانههای بازیابی اطلاعات بولین و نحوهی شاخصگذاری (indexing)
- پیشپردازش اسناد: عملیات متنی و نرمالسازی واژهها
- بازیابی اطلاعات به صورت مقاوم (tolerant)
- پرسمانهای wild-card
- تصحیح غلط املایی (spelling correction)
- شاخصگذاری بلوکی و توزیع شده (distributed)
- Map-Reduce
- فشردهسازی شاخص
- فشردهسازی دیکشنری
- فشردهسازی شاخص به روشهای بایت-متغیر و گاما
- مدل فضای برداری (Vector Space Model) و نمایش tf-idf
- امتیازدهی و رتبهبندی اسناد (بهبود زمانی)
- ارزیابی سامانههای بازیابی اطلاعات و معرفی معیارهای ارزیابی
- مدلهای بازیابی اطلاعات احتمالاتی
- مدلهای زبانی (Language models)
- دستهبندی اسناد
- دستهبند Naïve Bayes
- دستهبندهای خطی
- خوشهبندی اسناد
- خوشهبندی k-means
- خوشهبندهای سلسلهمراتبی
- یادگیری رتبهبندی اسناد (learning to rank)
- کاهش ابعاد و تعبیه کلمات
- Latent Semantic Indexing (LSI)
- Word2vec
- موتورهای جستجوی وب
- خزشگر (crawler)
- تشخیص اسناد مشابه (near-duplicate)
- تحلیل گراف لینکها و پیدا کردن PageRank
- سامانههای توصیهگر (recommender systems)
- روشهای مبتنی بر محتوا (content-based)
- روشهای پالایش همکارانه (collaborative filtering)
- روشهای ترکیبی
- معرفی مباحث پیشرفته
- شخصیسازی (Personalization) بازیابی اطلاعات
- بازیابی اطلاعات در شبکههای اجتماعی (social networks)
- سامانههای پرسش و پاسخ
- تحلیل تمایل (Sentiment Analysis)
- بازیابی اطلاعات بینزبانی (corss-lingual)
ارزیابی
- آزمون میان ترم: ۲۵٪
- آزمون پایانی: ۳۵٪
- پروژه: ۲۵٪
- آزمونهای کوتاه: ۱۰٪
- کوئیزها: ۵٪
مراجع
- C.D. Manning, P. Raghavan, and H. Schutze. Introduction to Information Retrieval. Cambridge University Press, 2008.