تحلیل دادههای متنی
Text Data Analysis
شماره درس: ۴۰۸۰۲.۷ | تعداد واحد: ۳ |
مقطع: کارشناسی ارشد | نوع درس: نظری |
پیشنیاز: – | همنیاز: – |
اهداف درس
هدف از این درس فراگیری تکنیکهای استخراج اطلاعات از متون و توانایی بهکارگیری ابزارهای مناسب برای این منظور است. برای رسیدن به این هدف مواردی از جمله ساخت مخزن اسناد، آمادهسازی داده متنی، تحلیل زبانی، بازنمایی متون و شاخههای مختلف تحلیل داده متنی نظیر مدلسازی موضوعی، دستهبندی و خوشهبندی متون بررسی خواهند شد. همچنین تشخیص روشهای تحلیلی مناسب برای یک مساله تحلیل متن از جمله اهداف این درس است. به علاوه ابزارهای تحلیل متن (از جمله Natural Language Toolkit) در حل مسایل مورد استفاده قرار خواهند گرفت.
ریز مواد
- جمعآوری داده
- web scraping و استفاده از API
- ساخت مخزن (corpus)
- تمیزسازی و آماده کردن داده
- جداسازی واحدها (Tokenization)
- ریشهیابی (Stemming) و بنواژهسازی (Lemmatization)
- پیدا کردن عبارات منظم (Regular Expressions)
- نرمالسازی (Normalization)
- تصحیح املایی (Spelling Correction)
- شکلهای زبانی کلمات
- فرمهای مختلف “-nym” نظیر هممعنا (synonym)، همشکل یا همآوا (homonym)، جزء واژه (meronym) و …
- محدود یا گسترده کردن از طریق زیرشمول (hyponyms) و فراشمول (hypernyms)
- دیکشنری
- هستانشناسی (ontology)
- رده بندی (taxonomy)
- کشف روابط Syntagmatic
- آنتروپی، آنتروپی شرطی و اطلاعات متقابل (mutual information)
- تحلیل زبانی
- تجزیه (Parsing)
- مضمون کلمه (word sense)
- برچسبزنی ادات سخن (Part-of-Speech) یا POS
- ابهام زدایی مضمون کلمه (Word Sense Disambiguation)
- تشخیص موجودیتهای نامدار (Named Entity Recognition)
- بازنمایی متون
- نمایش کیسه لغات (Bag of Words)، فرکانس واژه (Term Frequency)، فرکانس واژه-معکوس فرکانس سند (TF-IDF)
- N-گرام
- روشهای مبتنی بر دیکشنری
- مدلسازی زبانی (language modeling)
- تعبیه کلمات (word embedding)
- مدلسازی موضوعی (Topic Modeling)
- روشهای احتمالاتی مدلسازی موضوعی
- تحلیل معنایی نهان احتمالاتی (Probabilistic Latent Semantic Analysis)
- تخصیص دیریکله نهان (Latent Dirichlet Allocation)
- مدلسازی موضوعی ساختاری (Structural Topic Modeling)
- خوشهبندی متون
- رویکرد احتمالاتی
- روشهای مبتنی بر معیار شباهت
- ارزیابی (evaluation)
- دستهبندی متون
- دستهبند احتمالاتی مولد (Generative)
- دستهبند تمایزی (Discriminative)
- روشهای دستهبندی
- ارزیابی
- تحلیل احساس (sentiment analysis) و نظرکاوی (opinion mining)
- دستهبندی احساس
- رگرسیون لاجستیک ترتیبی (ordinal)
- تکنیکهای بصریسازی (visualization) در تحلیل متون
- حکومت داده (Governance) و اخلاق (Ethics) در تحلیل متن
ارزیابی
- امتحان میان ترم: ۲۰٪
- امتحان پایان ترم: ۳۰٪
- تمرین: ۳۵٪
- پروژه: ۱۵٪
مراجع
- Grimmer, Justin, and Brandon Stewart. 2013. Text as Data. The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts. Political Analysis 21: 267-297.
- Jurafsky, Daniel, and James H. Martin. 2018. Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. 3rd edition.