You are not allowed to perform this action

داده‌کاوی

Data Mining

شماره درس: ۴۰۷۱۴ تعداد واحد: ۳
مقطع: کارشناسی ارشد نوع درس: نظری
پیش‌نیاز: – هم‌نیاز: –

اهداف درس

هدف این درس، آشنا کردن دانشجویان کارشناسی ارشد و دکترا با مفاهیم و مسائل مطرح در کاوش حجم وسیعی از داده‌ها و کشف الگوهای موجود در آن‌هاست. در ابتدا مفاهیم پیش‌پردازش داده‌ها و انباره داده ارائه شده و سپس به مباحث مربوط به حوزه‌های اصلی در داده‌کاوی پرداخته می‌شود.

ریز مواد

  • مقدمه - معرفی داده‌کاوی و مدل‌های اصلی در آن (۱ جلسه)
  • روش‌های مربوط به پیش‌پردازش داده‌ها (۲ جلسه)
  • معرفی انباره داده، مکعب داده‌ای و گزارش‌گیری تحلیلی (۲ جلسه)
  • مدل نگاشت-کاهش (۳ جلسه)
    • الگوریتم‌های نگاشت-کاهش
    • نظریه پیچیدگی مدل نگاشت-کاهش
    • آشنایی با پشته‌های فناوری مربوطه مانند اسپارک، هادوپ و …
  • کاوش مجموعه‌های عناصر در حجم بزرگ (۳ جلسه)
    • پیدا کردن مجموعه عناصر مشابه و توابع درهم‌سازی حساس به محل
    • پیدا کردن مجموعه‌های با تکرر بالا، الگوریتم A-Priori، الگوریتم PCY، الگوریتم SON و تویوونن
  • کاوش جریان داده‌ها (۳ جلسه)
    • نمونه برداری جریان داده‌ها
    • پالایش جریان داده‌ها و فیلتر‌های بلوم
    • الگوریتم‌های جریان داده
  • تحلیل شبکه‌های داده‌ای (۴ جلسه)
    • ویژگی‌های ساختاری شبکه‌ها
    • رتبه صفحه و قدم‌زنی تصادفی
    • الگوریتم‌های کاوش انجمن‌ها
    • الگوریتم‌های شمارش موتیف‌ها در گراف‌ها
    • الگوریتم‌های نمونه‌برداری در گراف‌ها
  • الگوریتم‌های خوشه‌بندی داده (۴ جلسه)
    • الگوریتم‌های سلسله مراتبی
    • الگوریتم K-Means
    • الگوریتم CURE
    • خوشه‌بندی جریان‌های داده
  • الگوریتم‌های کاهش ابعاد (۲ جلسه)
    • الگوریتم SVD و PCA
    • الگوریتم CUR
  • الگوریتم‌های یادگیری ماشین در داده‌های بزرگ (۴ جلسه)
    • مفهوم یادگیری ماشین و الگوریتم‌های رگرسیون
    • شبکه‌های عصبی، معرفی شبکه‌های عصبی عمیق
    • الگوریتم SVM
  • داده‌کاوی در صنعت (۲ جلسه)
    • سیستم‌های توصیه‌گر
    • تبلیغات در وب و مسئله Adwords
    • بازارهای تطابق‌یابی
    • مسئله قیمت‌گذاری
    • داده‌کاوی سلامت

ارزیابی

  • آزمون: آزمون‌های میان‌نیم‌سال و پایان‌نیم‌سال (۶۰ درصد نمره)
  • تمرین: سه تمرین پژوهشی، و یک تمرین عملی که در طول نیم‌سال تحویل داده می‌شوند (۲۵ درصد نمره).
  • گزارش پژوهشی: موضوع پژوهش قبل از آزمون پایان‌نیم‌سال تعیین می‌شود. دانشجو کار پژوهش را با کمک استاد درس آغاز کرده و پس از انجام کار، نتیجه پژوهش را در قالب گزارش ارائه می‌دهد (۱۵ درصد نمره).

مراجع

  1. J. Leskovec, A. Rajaraman, and J.D. Ullman. Mining of massive datasets. Cambridge University Press, 2014.
  2. J. Han, J. Pei, and M. Kamber. Data mining: Concepts and techniques. Elsevier, 2011.