اصول و تکنیک‌ها در علم داده

Principles and Techniques in Data Science

شماره درس: ۴۰۴۸۶ تعداد واحد: ۳
مقطع: کارشناسی ارشد نوع درس: نظری
پیش‌نیاز: – هم‌نیاز: –

اهداف درس

هدف این درس، توانمندسازی دانشجویان کارشناسی ارشد و دکترا برای ارائه راه‌حل‌های داده محور برای مسائل مختلف است. برای این منظور، دانشجویان با مفاهیم و پیش‌نیازهای ریاضی و آماری ارائه چنین رویکردهایی آشنا می‌شوند، با اصول و گام‌های ارائه راهکارهای داده‌محور هم‌چون تحلیل و مصورسازی داده‌ها، مدل‌سازی آماری و احتمالاتی، استنتاج آماری و تصمیم‌گیری در شرایط نامعین آشنا می‌شوند و با به‌کارگیری این روش‌ها به صورت عملی در مسائل واقعی، با چالش‌های به‌کارگیری این روش‌ها در دنیای واقعی آشنا می‌شوند.

این درس از چهار بخش تشکیل شده است. در بخش اول این درس، دانشجویان با آنالیز داده و چالش‌های عملی آن آشنا می‌شوند. پس از آن، در بخش دوم، با مفاهیم پایه مدل‌سازی آماری و پیش‌نیازهای آن هم‌چون روش‌های بهینه‌سازی آشنا می‌شوند. در بخش سوم، دانشجویان با یک مسئله واقعی در حوزه دسته‌بندی روبرو می‌شوند و گام‌به‌گام مراحل ارائه یک روش مبتنی بر داده را با آن طی می‌کنند و در این مسیر با روش‌های مختلف استخراج و آماده‌سازی داده، یادگیری نمایش داده‌ها در فضای داده، دسته‌بندی داده و روش‌های ارزیابی مدل یادگیری شده آشنا می‌شوند. در بخش آخر، دانشجویان با چالش‌های مستقر کردن یک مدل مبتنی بر داده در محیط عملیات آشنا می‌شوند.

ریز مواد

  1. آنالیز داده
    • آشنایی با چرخه عمر علوم داده
    • تولید داده (پرسشنامه، سرشماری، آزمایش کنترل شده)
    • جمع‌آوری و تجمیع داده‌ها (یکسان‌سازی داده‌ها، نمایش جدولی داده‌ها، فیلتر کردن و تجمیع داده‌ها)
    • تمیز کردن داده (مدیریت داده‌های پرت، مقادیر نامعلوم داده‌ها، کدگذاری و نمایش در فضای برداری)
    • تحلیل اکتشافی داده
    • مصورسازی داده‌ها
    • تشخیص الگو و فرضیه پردازی به کمک مصورسازی داده‌ها
    • شناخت آفت‌های تحلیل‌های داده (بایاس در داده‌ها، ناکافی بودن ویژگی‌ها، تشخیص همزمانی از علّیت)
    • تست فرضیه و دستکاری value-p۱
  2. مدل‌سازی آماری داده‌
    • شنایی با گام‌های مدل‌سازی (تابع هزینه، یادگیری پارامترهای مدل، پیش‌بینی، نظریه تصمیم)
    • مفهوم قدرت تعمیم مدل و سنجش آن به کمک تابع هزینه
    • جداسازی داده‌های آموزش و اعتبارسنجی و تست
    • بیش‌برازش، اعتبارسنجی ضربدری، منظم سازی
    • روش‌های بهینه‌سازی (کاهش گرادیان، نیوتن، روش‌های مبتنی بر گشتاور)
    • مدل‌سازی احتمالاتی و بیزی
    • استنتاج آماری، یادگیری مدل به کمک نظریه تخمین، پیش‌بینی به کمک مدل‌های آموزش داده شده
    • نظریه تصمیم
    • مصالحه بین سوگیری و واریانس
    • نفرین ابعاد
  3. مدل‌سازی آماری در عمل
    • مصورسازی داده‌های با ابعاد بالا با استفاده از روش tSNE
    • استخراج و انتخاب ویژگی
    • کوانتیزاسیون ویژگی‌ها به کمک درخت تصمیم
    • دسته‌بندی به کمک روش‌های خطی
    • دسته‌بندی با استفاده از درخت تصمیم
    • ارزیابی دسته‌بندها
  4. مهندسی یادگیری ماشین در محیط عملیاتی
    • مقدمه‌ای بر mlops: یادگیری انتهابه‌انتها۱، یادگیری مداوم، تغییر داده، تغییر مفهوم، فروشگاه ویژگی، خط‌لوله
    • چرخه عمر داده در محیط عملیاتی
    • چرخه عمر و خط لوله‌های یادگیری در محیط‌های عملیاتی
    • استقرار سامانه‌های یادگیری در محیط عملیاتی

ارزیابی

  • آزمون: آزمون‌های میان‌نیم‌سال و پایان‌نیم‌سال (۴۰ درصد نمره)
  • تمرین و پروژه: سه تمرین تئوری و یک پروژه عملی که در طول نیم‌سال تحویل داده می‌شوند (۴۰ درصد نمره).
  • گزارش پژوهشی: موضوع پژوهش قبل از آزمون پایان‌نیم‌سال تعیین می‌شود. دانشجو کار پژوهش را با کمک استاد درس آغاز کرده و پس از انجام کار، نتیجه پژوهش را در قالب گزارش ارائه می‌دهد (۲۰ درصد نمره).

مراجع

  1. Principles and Techniques of Data Science, UC Berkeley, Fall 2022.
  2. J. Grus, Data Science from Scratch, O’Reilly, 2019.
  3. G. James, D. Witten, T. Hastie, R. Tibshirani, An Introduction to Statistical Learning, Springer, 2017.
  4. C. O'Neil, R. Schutt, Doing Data Science, O’Reilly, 2013.
  5. W. McKinney, Python for Data Analysis, O’Reilly, 2012.