زیرساخت‌های پردازشی داده

Data Processing Infrastructures

شماره درس: ۴۰۴۸۷	تعداد واحد: ۳
مقطع: کارشناسی ارشد	نوع درس: نظری
پیش‌نیاز: –	هم‌نیاز: –

اهداف درس

هدف این درس، آشنا کردن دانشجویان کارشناسی ارشد و دکترا با مفاهیم و مسائل مطرح در زیرساخت‌های مرتبط با ذخیره‌سازی و مدیریت داده‌های بزرگ است. تمامی مفاهیم مطرح در این درس به صورت ملموس و عملی تدریس می‌شود و از دانشجویان خواسته می‌شود که زیرساخت‌های تدریس‌شده را راه‌اندازی کرده و با‌ آن‌ها به صورت عملی کار کنند. به منظور همگرایی بهتر سعی شده است از هر مفهوم زیرساختی، یک فناوری عملی از آن نیز انتخاب شود و در حین آموزش مفاهیم تدریس گردد. به منظور راحتی بیشتر و همچنین یکپارچگی آسان‌تر، همه فناوری‌های از پشته Apache‌ و Hadoop‌ انتخاب شده‌اند.

ریز مواد

مروری عملی بر سیستم‌ عامل
مروری بر پایگاه‌های داده به صورت عملی
ماشین‌های مجازی و فناوری کانتینر
مفاهیم مرتبط با سیستم عامل در تحلیل داده‌های حجیم
- مفاهیم مقدماتی
- معماری Hadoop
- فایل سیستم توزیع‌شده و HDFS
- محاسبه توزیع‌شده و MapReduce
- ارسال کار نگاشت کاهش به Yarn
جریان‌های کاری در Hadoop
- Hadoop Streaming
- مثال‌هایی از برنامه‌نویسی MapReduce‌ با پایتون
- MapReduce پیشرفته
محاسبات داخل حافظه‌ای و Spark
- مفاهیم Spark
- استفاده از PySpark
- پیاده‌سازی یک برنامه Spark
انبار‌های داده و کاوش آن‌ها
- انبار داده و شمای داده‌ها
- کوئری روی داده‌های ساختاریافته با Hive
- پایگاه‌های داده ستون-محور و تحلیل بلادرنگ داده با HBase
یکپارچگی داده
- واردسازی داد‌ه‌های رابطه‌ای با استفاده Sqoop
- وارد‌سازی جریان‌های داده با استفاده از Flume
تحلیل داده با APIهای لایه‌ بالاتر
- آشنایی با فناوری Pig
- آشنایی با API‌های لایه بالاتر Spark‌ مانند Spark SQL و DataFrame
مقدمه‌ای بر یادگیری ماشین توزیع شده با Spark

ارزیابی

آزمون: آزمون‌های میان‌نیم‌سال و پایان‌نیم‌سال (۴۰ درصد نمره)
تمرین ‌و پروژه : سه تمرین تئوری و یک پروژه عملی که در طول نیم‌سال تحویل داده می‌شوند (۴۰ درصد نمره).
گزارش پژوهشی: موضوع پژوهش قبل از آزمون پایان‌نیم‌سال تعیین می‌شود. دانشجو کار پژوهش را با کمک استاد درس آغاز کرده و پس از انجام کار، نتیجه پژوهش را در قالب گزارش ارائه می‌دهد (۲۰ درصد نمره).

مراجع

Bengfort, Benjamin, and Jenny Kim. Data analytics with Hadoop: an introduction for data scientists. O'Reilly, 2016.

دانشکده مهندسی کامپیوتر

دانشگاه صنعتی شریف

ابزار کاربر

زیرساخت‌های پردازشی داده

اهداف درس

ریز مواد

ارزیابی

مراجع

ابزار صفحه

ابزار کاربر

زیرساخت‌های پردازشی داده

اهداف درس

ریز مواد

ارزیابی

مراجع