تحلیل داده‌های متنی

Text Data Analysis

شماره درس: ۴۰۸۰۲.۷ تعداد واحد: ۳
مقطع: کارشناسی ارشد نوع درس: نظری
پیش‌نیاز: – هم‌نیاز: –

اهداف درس

هدف از این درس فراگیری تکنیک‌های استخراج اطلاعات از متون و توانایی به‌کارگیری ابزارهای مناسب برای این منظور است. برای رسیدن به این هدف مواردی از جمله ساخت مخزن اسناد، آماده‌سازی داده متنی، تحلیل زبانی، بازنمایی متون و شاخه‌های مختلف تحلیل داده متنی نظیر مدل‌سازی موضوعی، دسته‌بندی و خوشه‌بندی متون بررسی خواهند شد. همچنین تشخیص روش‌های تحلیلی مناسب برای یک مساله تحلیل متن از جمله اهداف این درس است. به علاوه ابزارهای تحلیل متن (از جمله Natural Language Toolkit) در حل مسایل مورد استفاده قرار خواهند گرفت.

ریز مواد

  1. جمع‌آوری داده
    • web scraping و استفاده از API
    • ساخت مخزن (corpus)
  2. تمیزسازی و آماده کردن داده
    • جداسازی واحدها (Tokenization)
    • ریشه‌یابی (Stemming) و بن‌واژه‌سازی (Lemmatization)
    • پیدا کردن عبارات منظم (Regular Expressions)
    • نرمال‌سازی (Normalization)
    • تصحیح املایی (Spelling Correction)
  3. شکل‌های زبانی کلمات
    • فرمهای مختلف “-nym” نظیر هم‌معنا (synonym)، هم‌شکل یا هم‌آوا (homonym)، جزء واژه (meronym) و …
    • محدود یا گسترده کردن از طریق زیرشمول (hyponyms) و فراشمول (hypernyms)
  4. دیکشنری
    • هستان‌شناسی (ontology)
    • رده بندی (taxonomy)
  5. کشف روابط Syntagmatic
    • آنتروپی، آنتروپی شرطی و اطلاعات متقابل (mutual information)
  6. تحلیل زبانی
    • تجزیه (Parsing)
    • مضمون کلمه (word sense)
    • برچسب‌زنی ادات سخن (Part-of-Speech) یا POS
    • ابهام زدایی مضمون کلمه (Word Sense Disambiguation)
    • تشخیص موجودیت‌های نامدار (Named Entity Recognition)
  7. بازنمایی متون
    • نمایش کیسه لغات (Bag of Words)، فرکانس واژه (Term Frequency)، فرکانس واژه-معکوس فرکانس سند (TF-IDF)
    • N-گرام
    • روشهای مبتنی بر دیکشنری
    • مدل‌سازی زبانی (language modeling)
    • تعبیه کلمات (word embedding)
  8. مدل‌سازی موضوعی (Topic Modeling)
    • روش‌های احتمالاتی مدل‌سازی موضوعی
    • تحلیل معنایی نهان احتمالاتی (Probabilistic Latent Semantic Analysis)
    • تخصیص دیریکله نهان (Latent Dirichlet Allocation)
    • مدل‌سازی موضوعی ساختاری (Structural Topic Modeling)
  9. خوشه‌بندی متون
    • رویکرد احتمالاتی
    • روشهای مبتنی بر معیار شباهت
    • ارزیابی (evaluation)
  10. دسته‌بندی متون
    • دسته‌بند احتمالاتی مولد (Generative)
    • دسته‌بند تمایزی (Discriminative)
    • روشهای دسته‌بندی
    • ارزیابی
  11. تحلیل احساس (sentiment analysis) و نظرکاوی (opinion mining)
    • دسته‌بندی احساس
    • رگرسیون لاجستیک ترتیبی (ordinal)
  12. تکنیک‌های بصری‌سازی (visualization) در تحلیل متون
  13. حکومت داده (Governance) و اخلاق (Ethics) در تحلیل متن

ارزیابی

  • امتحان میان ترم: ۲۰٪
  • امتحان پایان ترم: ۳۰٪
  • تمرین: ۳۵٪
  • پروژه: ۱۵٪

مراجع

  1. Grimmer, Justin, and Brandon Stewart. 2013. Text as Data. The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts. Political Analysis 21: 267-297.
  2. Jurafsky, Daniel, and James H. Martin. 2018. Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 3rd edition.