اصول و تکنیکها در علم داده
Principles and Techniques in Data Science
شماره درس: ۴۰۴۸۶ | تعداد واحد: ۳ |
مقطع: کارشناسی ارشد | نوع درس: نظری |
پیشنیاز: – | همنیاز: – |
اهداف درس
هدف این درس، توانمندسازی دانشجویان کارشناسی ارشد و دکترا برای ارائه راهحلهای داده محور برای مسائل مختلف است. برای این منظور، دانشجویان با مفاهیم و پیشنیازهای ریاضی و آماری ارائه چنین رویکردهایی آشنا میشوند، با اصول و گامهای ارائه راهکارهای دادهمحور همچون تحلیل و مصورسازی دادهها، مدلسازی آماری و احتمالاتی، استنتاج آماری و تصمیمگیری در شرایط نامعین آشنا میشوند و با بهکارگیری این روشها به صورت عملی در مسائل واقعی، با چالشهای بهکارگیری این روشها در دنیای واقعی آشنا میشوند.
این درس از چهار بخش تشکیل شده است. در بخش اول این درس، دانشجویان با آنالیز داده و چالشهای عملی آن آشنا میشوند. پس از آن، در بخش دوم، با مفاهیم پایه مدلسازی آماری و پیشنیازهای آن همچون روشهای بهینهسازی آشنا میشوند. در بخش سوم، دانشجویان با یک مسئله واقعی در حوزه دستهبندی روبرو میشوند و گامبهگام مراحل ارائه یک روش مبتنی بر داده را با آن طی میکنند و در این مسیر با روشهای مختلف استخراج و آمادهسازی داده، یادگیری نمایش دادهها در فضای داده، دستهبندی داده و روشهای ارزیابی مدل یادگیری شده آشنا میشوند. در بخش آخر، دانشجویان با چالشهای مستقر کردن یک مدل مبتنی بر داده در محیط عملیات آشنا میشوند.
ریز مواد
- آنالیز داده
- آشنایی با چرخه عمر علوم داده
- تولید داده (پرسشنامه، سرشماری، آزمایش کنترل شده)
- جمعآوری و تجمیع دادهها (یکسانسازی دادهها، نمایش جدولی دادهها، فیلتر کردن و تجمیع دادهها)
- تمیز کردن داده (مدیریت دادههای پرت، مقادیر نامعلوم دادهها، کدگذاری و نمایش در فضای برداری)
- تحلیل اکتشافی داده
- مصورسازی دادهها
- تشخیص الگو و فرضیه پردازی به کمک مصورسازی دادهها
- شناخت آفتهای تحلیلهای داده (بایاس در دادهها، ناکافی بودن ویژگیها، تشخیص همزمانی از علّیت)
- تست فرضیه و دستکاری value-p۱
- مدلسازی آماری داده
- شنایی با گامهای مدلسازی (تابع هزینه، یادگیری پارامترهای مدل، پیشبینی، نظریه تصمیم)
- مفهوم قدرت تعمیم مدل و سنجش آن به کمک تابع هزینه
- جداسازی دادههای آموزش و اعتبارسنجی و تست
- بیشبرازش، اعتبارسنجی ضربدری، منظم سازی
- روشهای بهینهسازی (کاهش گرادیان، نیوتن، روشهای مبتنی بر گشتاور)
- مدلسازی احتمالاتی و بیزی
- استنتاج آماری، یادگیری مدل به کمک نظریه تخمین، پیشبینی به کمک مدلهای آموزش داده شده
- نظریه تصمیم
- مصالحه بین سوگیری و واریانس
- نفرین ابعاد
- مدلسازی آماری در عمل
- مصورسازی دادههای با ابعاد بالا با استفاده از روش tSNE
- استخراج و انتخاب ویژگی
- کوانتیزاسیون ویژگیها به کمک درخت تصمیم
- دستهبندی به کمک روشهای خطی
- دستهبندی با استفاده از درخت تصمیم
- ارزیابی دستهبندها
- مهندسی یادگیری ماشین در محیط عملیاتی
- مقدمهای بر mlops: یادگیری انتهابهانتها۱، یادگیری مداوم، تغییر داده، تغییر مفهوم، فروشگاه ویژگی، خطلوله
- چرخه عمر داده در محیط عملیاتی
- چرخه عمر و خط لولههای یادگیری در محیطهای عملیاتی
- استقرار سامانههای یادگیری در محیط عملیاتی
ارزیابی
- آزمون: آزمونهای میاننیمسال و پایاننیمسال (۴۰ درصد نمره)
- تمرین و پروژه: سه تمرین تئوری و یک پروژه عملی که در طول نیمسال تحویل داده میشوند (۴۰ درصد نمره).
- گزارش پژوهشی: موضوع پژوهش قبل از آزمون پایاننیمسال تعیین میشود. دانشجو کار پژوهش را با کمک استاد درس آغاز کرده و پس از انجام کار، نتیجه پژوهش را در قالب گزارش ارائه میدهد (۲۰ درصد نمره).
مراجع
- Principles and Techniques of Data Science, UC Berkeley, Fall 2022.
- J. Grus, Data Science from Scratch, O’Reilly, 2019.
- G. James, D. Witten, T. Hastie, R. Tibshirani, An Introduction to Statistical Learning, Springer, 2017.
- C. O'Neil, R. Schutt, Doing Data Science, O’Reilly, 2013.
- W. McKinney, Python for Data Analysis, O’Reilly, 2012.