زیرساختهای پردازشی داده
Data Processing Infrastructures
شماره درس: ۴۰۴۸۷ | تعداد واحد: ۳ |
مقطع: کارشناسی ارشد | نوع درس: نظری |
پیشنیاز: – | همنیاز: – |
اهداف درس
هدف این درس، آشنا کردن دانشجویان کارشناسی ارشد و دکترا با مفاهیم و مسائل مطرح در زیرساختهای مرتبط با ذخیرهسازی و مدیریت دادههای بزرگ است. تمامی مفاهیم مطرح در این درس به صورت ملموس و عملی تدریس میشود و از دانشجویان خواسته میشود که زیرساختهای تدریسشده را راهاندازی کرده و با آنها به صورت عملی کار کنند. به منظور همگرایی بهتر سعی شده است از هر مفهوم زیرساختی، یک فناوری عملی از آن نیز انتخاب شود و در حین آموزش مفاهیم تدریس گردد. به منظور راحتی بیشتر و همچنین یکپارچگی آسانتر، همه فناوریهای از پشته Apache و Hadoop انتخاب شدهاند.
ریز مواد
- مروری عملی بر سیستم عامل
- مروری بر پایگاههای داده به صورت عملی
- ماشینهای مجازی و فناوری کانتینر
- مفاهیم مرتبط با سیستم عامل در تحلیل دادههای حجیم
- مفاهیم مقدماتی
- معماری Hadoop
- فایل سیستم توزیعشده و HDFS
- محاسبه توزیعشده و MapReduce
- ارسال کار نگاشت کاهش به Yarn
- جریانهای کاری در Hadoop
- Hadoop Streaming
- مثالهایی از برنامهنویسی MapReduce با پایتون
- MapReduce پیشرفته
- محاسبات داخل حافظهای و Spark
- مفاهیم Spark
- استفاده از PySpark
- پیادهسازی یک برنامه Spark
- انبارهای داده و کاوش آنها
- انبار داده و شمای دادهها
- کوئری روی دادههای ساختاریافته با Hive
- پایگاههای داده ستون-محور و تحلیل بلادرنگ داده با HBase
- یکپارچگی داده
- واردسازی دادههای رابطهای با استفاده Sqoop
- واردسازی جریانهای داده با استفاده از Flume
- تحلیل داده با APIهای لایه بالاتر
- آشنایی با فناوری Pig
- آشنایی با APIهای لایه بالاتر Spark مانند Spark SQL و DataFrame
- مقدمهای بر یادگیری ماشین توزیع شده با Spark
ارزیابی
- آزمون: آزمونهای میاننیمسال و پایاننیمسال (۴۰ درصد نمره)
- تمرین و پروژه : سه تمرین تئوری و یک پروژه عملی که در طول نیمسال تحویل داده میشوند (۴۰ درصد نمره).
- گزارش پژوهشی: موضوع پژوهش قبل از آزمون پایاننیمسال تعیین میشود. دانشجو کار پژوهش را با کمک استاد درس آغاز کرده و پس از انجام کار، نتیجه پژوهش را در قالب گزارش ارائه میدهد (۲۰ درصد نمره).
مراجع
- Bengfort, Benjamin, and Jenny Kim. Data analytics with Hadoop: an introduction for data scientists. O'Reilly, 2016.