تحلیل احساسات یا عقیده کاوی یعنی چی؟‌

در یک کلام، می‌توان گفت که در طول دهه‌های گذشته حجم داده‌های تولیدشده توسط کاربران و کمپانی‌های مختلف بسیار قابل‌توجه بوده که از آن به عنوان Big Data (کلان داده) یاد می‌شود اما این داده‌ها زمانی ارزشمند خواهند بود که بتوان آن‌ها را تحلیل کرده و از دل آن‌ها آمار و ارقامی به دست آوریم که با استفاده از آن‌ها بشود به شناخت.
IT_Specialist
پست: 14
تاریخ عضویت: شنبه ژولای 20, 2019 4:27 pm

تحلیل احساسات یا عقیده کاوی یعنی چی؟‌

پست توسط IT_Specialist » سه شنبه ژولای 23, 2019 12:46 pm

شاید واستون جالب باشه که بدونین تحلیل احساسات یا عقیده کاوی یعنی چی؟‌

عقیده‌کاوی به استفاده از «پردازش زبان طبیعی» (natural language processing)، «تحلیل متن» (text analysis)، «زبان‌شناسی رایانشی» (computational linguistics) و «زیست‌سنجشی» (biometrics) برای شناسایی، استخراج، کیفیت‌یابی، مطالعه وضعیت عواطف و اطلاعات موضوعی سیستماتیک گفته می‌شود.

تصویر

تحلیل احساسات به‌طور گسترده‌ای برای مباحث مرتبط با صدای مشتریان مانند پاسخ‌گویی به نظرسنجی‌ها و نقد و بررسی‌ها، شبکه‌های اجتماعی و بهداشت و درمان و به‌طور کلی برای طیف گسترده‌ای از کاربردها از بازاریابی گرفته تا خدمات مشتریان و درمان‌های کلینیکی اعمال می‌شود.

به‌طور کلی، هدف تحلیل احساسات شناسایی نگرش‌های یک سخنران یا نویسنده با توجه به قطبیت کلی متن، واکنش عاطفی به یک سند و یا تعامل‌های به وقوع پیوسته پیرامون آن است. «نگرش» ممکن است قضاوت یا ارزیابی (درباره نظریه ارزیابی مطالعه کنید)، حالت عاطفی (حالت عاطفی نویسنده یا سخنران)، یا ارتباطات عاطفی (اثر عاطفی مورد نظر از یک نویسنده یا مخاطبان) باشد.

مثال‌ها
اهداف و چالش‌های تحلیل عواطف از طریق چند مثال ساده قابل بیان است.

موارد ساده

شهر «کرونات» (Coronet) همه روزه دارای بهترین خطوط ناوبری است.
کروز «بِترام» (Bertram) دارای یک بدنه «V شکل» عمیق است که به‌سادگی در دریا حرکت می‌کند.
ناوهای پاستیلی سال ۱۹۸۰ فلوریدا زشت هستند.
من کروزهای کابین‌دار قدیمی را دوست ندارم.


مثال‌های چالش برانگیزتر

من از کروزهای کابین‌دار بدم نمیاید. (مدیریت نقیض)
بیزاری از کشتی جزو روحیات من نیست. (نقیض، ترتیب عکس کلمات)
گاهی واقعا از قایق‌های فلزی متنفر هستم. (قیدها، عواطف را تغییر می‌دهند.)
من واقعا از ته دل بیرون رفتن در این هوا را دوست دارم! (طعنه مثبت)
کریس کرفت (Chris Craft) از لیمستون (Limestone) بهتر به نظر می‌رسد. (اسامی دو برند، شناسایی هدف نگرش‌ها دشوار است.)
کریس کرفت از لیمستون بهتر به نظر می‌رسد، اما لیمستون قابل دریانوردی و همچنین قابل اعتماد است. (دو نگرش، دو نام برند)
فیلم به شکل تعجب برانگیزی دارای صحنه‌های پر پیچ و تاب ناراحت‌کننده است. (اصطلاح منفی که به شکل مثبتی در برخی دامنه‌های استفاده می‌شود.)
شما باید منو دسرهای اغوا کننده آن‌ها را ببینید. (اصطلاح اغواکننده بیان کننده نگرشی منفی است. اما اخیرا قطبش آن در برخی از متون تغییر کرده است)
من عاشقم تلفن موبایلم هستم، اما خرید آن را به هیچ کدام از همکارانم پیشنهاد نکردم. (عواطف مثبت شرطی که دسته‌بندی آن‌ها دشوار است.)
قهرمان هفته آینده koide9 خواهد بود! (اصطلاح جدیدا ایجاد شده‌ای که می‌تواند به شدت نگرش فرد را نشان دهد اما دارای قطبش فراّر و اغلب خارج از دامنه لغات شناخته شده است.)
ابزارها
مجموعه داده‌های متعددی ویژه عقیده‌کاوی به‌صورت آنلاین و منبع باز موجود هستند. در ادامه لیستی از برخی ابزارها و مجموعه داده‌های عقیده‌کاوی ارائه شده است.

پلاگین‌های معماری عمومی برای مهندسی متن (GATE)
(SEAS(gsi-upm/SEAS
(SAGA(gsi-upm/SAGA
ماژول تحلیل عواطف استنفورد (حرکت عمیق: یادگیری عمیق برای تحلیل عواطف) (Stanford Sentiment Analysis Module)
LingPipe (آموزش عقیده‌کاوی)
TextBlob (آموزش: شروع سریع)
(Opinion Finder (OpinionFinder | MPQA
(Clips pattern.en (pattern.en | CLiPS
دیکشنری‌ها یا منابع متن‌باز:

SentiWordNet
مجموعه داده‌های Bing liu (عقیده‌کاوی، تحلیل احساسات، استخراج عقیده)
مجموعه داده General Inquirer
MPQA opinion Corpus (منابع MPQA)
Wordnet affect (مجموعه داده واژگان WordNet Domains)
انواع رویکردها
یک وظیفه اساسی در تحلیل عواطف دسته‌بندی قطبش متن، جمله یا جنبه/ویژگی‌های موجود در یک سند، در صورتی است که عقیده بیان شده در آن سند، یک موجودیت مثبت، منفی یا خنثی باشد. دسته‌بندی احساسات «فرا قطبی» پیشرفته در وضعیت‌های عاطفی مانند عصبانیت، غم و شادی به چشم می‌خورد. پیشگامان تحلیل عواطف افرادی بودند که راهکارهایی را برای کمی‌سازی الگوها در متن، و همچنین به طور جداگانه، پژوهش‌های روانشناسی را برای تبیین وضعیت روانی یک فرد بر اساس تحلیل رفتار انجام داده‌اند.

تصویر

روشی که در حق امتیاز انحصاری Volcani and Fogel بیان شده، به‌طور مشخص به احساسات، کلمات و عبارات مجزای شناسایی شده در متن با توجه به مقیاس‌های عاطفی گوناگون می‌پردازد. سیستم فعلی بر اساس کارایی آن‌، EffectCheck نامیده می‌شود. این سیستم در واقع لغات هم‌معنی موجود در یک متن را برای تبیین شدت عواطف استخراج شده از آن استفاده می‌کند.

بسیاری از دیگر تلاش‌های انجام شده در این حوزه دارای پیچیدگی کمتری بوده‌اند و از دید تک قطبیِ عواطف از مثبت به منفی استفاده می‌کردند. از جمله این پژوهش‌ها می توان به کارهای تورنی و «پانگ» Pang اشاره کرد که روش‌های گوناگونی را برای شناسایی قطبش نقد و بررسی‌های محصولات و فیلم‌ها اعمال کرده‌اند. این پژوهش‌ها روی متن انجام شده است.

می‌توان قطبش یک سند را با روش ارائه شده توسط پانگ و «سنیدر» (Snyder) سنجید. همچنین، پانگ و «لی» (Lee) پژوهشی پیرامون چگونگی تحلیل نقد و بررسی فیلم‌های موجود در دسته‌های مثبت و منفی به‌منظور پیش‌بینی درجه ستاره‌های آن در مقیاس سه یا چهار ستاره انجام داده‌اند. همچنین، تحلیل‌های عمیقی بر اساس نقد و بررسی‌های انجام شده برای رستوران‌ها و پیش‌بینی رتبه جنبه‌های گوناگون یک رستوران مانند غذا و جَو (در مقیاس پنج ستاره) توسط سیندر صورت پذیرفته است.

اولین گام برای کنار هم آوردن رویکردهای گوناگون (یادگیری، واژگان، دانش‌محور و دیگر موارد) در سمپوزیوم بهاری AAAI سال ۲۰۰۴ برداشته شد و در آن رویداد، زبان‌شناسان، دانشمندان کامپیوتر و دیگر پژوهشگران، مباحث مورد علاقه خود را ترازبندی کرده و با هدف انجام پژوهش‌های محاسباتی سیستماتیک پیرامون عواطف، ذهنیت و احساست موجود در متن آن‌ها را به همراه مجموعه داده‌های بنچ مارک به اشتراک گذاشتند.

هر چند در اغلب روش‌های دسته‌بندی آماری، کلاس خنثی با این فرض که متن‌های خنثی در نزدیکی مرزهای دسته‌بندهای دودویی قرار گرفته‌اند نادیده گرفته می‌شوند، اما پژوهشگران زیادی پیشنهاد می‌دهند که در هر مساله قطبش سه دسته باید شناسایی شوند. علاوه بر این می‌توان اثبات کرد که دسته‌بندهای مشخص مانند «حداکثر توزیع احتمال آنتروپی» (Maximum entropy probability distribution) و ماشین بردار پشتیبان می‌توانند از یک کلاس خنثی بهره برده و صحت کلی دسته‌بندی را افزایش دهند.

دو راه برای مواجهه با کلاس‌های خنثی وجود دارد. الگوریتم ابتدا با شناسایی جملات خنثی پردازش و فیلترینگ آن‌ها را انجام می‌دهد، و سپس ارزیابی احساسات مثبت و منفی انجام می‌شود. راه دیگر آن است که یک دسته‌بندی سه‌گانه از ابتدا انجام شود. دومین رویکرد اغلب شامل محاسبه توزیع احتمال در کلیه دسته‌ها (برای مثال دسته‌بندهای نایو بیز به عنوان جعبه ابزار زبان طبیعی یا NLTK) می‌شود.

چگونگی استفاده از کلاس خنثی بستگی به داده‌های خنثی دارد. اگر داده‌ها به شکل واضحی در دسته‌های خنثی، احساسات مثبت و منفی قرار گرفته باشند، می‌توان زبان خنثی را فیلتر کرد و تمرکز را روی قطبش بین احساسات مثبت و منفی قرار داد. در عین حال اگر، داده‌ها اغلب خنثی باشند در صورت وجود انحراف کوچکی از اثرات مثبت و منفی، استراتژی مطرح شده جهت ایجاد تمایز بین دو قطب با دشواری مواجه می‌شود.

یک روش متفاوت برای شناسایی احساسات، استفاده از سیستم‌های مقیاس‌دار است که در آن به کلمات دارای احساسات منفی، خنثی یا مثبت یک شماره در مقیاس بین ۱۰- و ۱۰+ تخصیص داده می‌شود (از منفی‌ترین به سمت مثبت‌ترین) یا به شکل ساده‌تر از ۰ به محدوده مثبت‌تر مانند +۴. این کار امکان تنظیم شدت عواطف یک عبارت بیان شده نسبت به محیط خود را فراهم می‌کند (معمولا در سطح جملات). هنگامی که یک تکه از متن ساختار نیافته با استفاده از پردازش زبان طبیعی (NLP) تحلیل می‌شود، به هر مفهوم بر مبنای روشی که لغات احساسی به مفهوم و امتیاز تخصیص داده شده به آن مرتبط می‌شوند، در محیط مشخص شده امتیازی تخصیص داده خواهد شد.


روشی که در حق امتیاز انحصاری Volcani and Fogel بیان شده، به‌طور مشخص به احساسات، کلمات و عبارات مجزای شناسایی شده در متن با توجه به مقیاس‌های عاطفی گوناگون می‌پردازد. سیستم فعلی بر اساس کارایی آن‌، EffectCheck نامیده می‌شود. این سیستم در واقع لغات هم‌معنی موجود در یک متن را برای تبیین شدت عواطف استخراج شده از آن استفاده می‌کند.

بسیاری از دیگر تلاش‌های انجام شده در این حوزه دارای پیچیدگی کمتری بوده‌اند و از دید تک قطبیِ عواطف از مثبت به منفی استفاده می‌کردند. از جمله این پژوهش‌ها می توان به کارهای تورنی و «پانگ» Pang اشاره کرد که روش‌های گوناگونی را برای شناسایی قطبش نقد و بررسی‌های محصولات و فیلم‌ها اعمال کرده‌اند. این پژوهش‌ها روی متن انجام شده است.

می‌توان قطبش یک سند را با روش ارائه شده توسط پانگ و «سنیدر» (Snyder) سنجید. همچنین، پانگ و «لی» (Lee) پژوهشی پیرامون چگونگی تحلیل نقد و بررسی فیلم‌های موجود در دسته‌های مثبت و منفی به‌منظور پیش‌بینی درجه ستاره‌های آن در مقیاس سه یا چهار ستاره انجام داده‌اند. همچنین، تحلیل‌های عمیقی بر اساس نقد و بررسی‌های انجام شده برای رستوران‌ها و پیش‌بینی رتبه جنبه‌های گوناگون یک رستوران مانند غذا و جَو (در مقیاس پنج ستاره) توسط سیندر صورت پذیرفته است.

اولین گام برای کنار هم آوردن رویکردهای گوناگون (یادگیری، واژگان، دانش‌محور و دیگر موارد) در سمپوزیوم بهاری AAAI سال ۲۰۰۴ برداشته شد و در آن رویداد، زبان‌شناسان، دانشمندان کامپیوتر و دیگر پژوهشگران، مباحث مورد علاقه خود را ترازبندی کرده و با هدف انجام پژوهش‌های محاسباتی سیستماتیک پیرامون عواطف، ذهنیت و احساست موجود در متن آن‌ها را به همراه مجموعه داده‌های بنچ مارک به اشتراک گذاشتند.

هر چند در اغلب روش‌های دسته‌بندی آماری، کلاس خنثی با این فرض که متن‌های خنثی در نزدیکی مرزهای دسته‌بندهای دودویی قرار گرفته‌اند نادیده گرفته می‌شوند، اما پژوهشگران زیادی پیشنهاد می‌دهند که در هر مساله قطبش سه دسته باید شناسایی شوند. علاوه بر این می‌توان اثبات کرد که دسته‌بندهای مشخص مانند «حداکثر توزیع احتمال آنتروپی» (Maximum entropy probability distribution) و ماشین بردار پشتیبان می‌توانند از یک کلاس خنثی بهره برده و صحت کلی دسته‌بندی را افزایش دهند.

دو راه برای مواجهه با کلاس‌های خنثی وجود دارد. الگوریتم ابتدا با شناسایی جملات خنثی پردازش و فیلترینگ آن‌ها را انجام می‌دهد، و سپس ارزیابی احساسات مثبت و منفی انجام می‌شود. راه دیگر آن است که یک دسته‌بندی سه‌گانه از ابتدا انجام شود. دومین رویکرد اغلب شامل محاسبه توزیع احتمال در کلیه دسته‌ها (برای مثال دسته‌بندهای نایو بیز به عنوان جعبه ابزار زبان طبیعی یا NLTK) می‌شود.

چگونگی استفاده از کلاس خنثی بستگی به داده‌های خنثی دارد. اگر داده‌ها به شکل واضحی در دسته‌های خنثی، احساسات مثبت و منفی قرار گرفته باشند، می‌توان زبان خنثی را فیلتر کرد و تمرکز را روی قطبش بین احساسات مثبت و منفی قرار داد. در عین حال اگر، داده‌ها اغلب خنثی باشند در صورت وجود انحراف کوچکی از اثرات مثبت و منفی، استراتژی مطرح شده جهت ایجاد تمایز بین دو قطب با دشواری مواجه می‌شود.

یک روش متفاوت برای شناسایی احساسات، استفاده از سیستم‌های مقیاس‌دار است که در آن به کلمات دارای احساسات منفی، خنثی یا مثبت یک شماره در مقیاس بین ۱۰- و ۱۰+ تخصیص داده می‌شود (از منفی‌ترین به سمت مثبت‌ترین) یا به شکل ساده‌تر از ۰ به محدوده مثبت‌تر مانند +۴. این کار امکان تنظیم شدت عواطف یک عبارت بیان شده نسبت به محیط خود را فراهم می‌کند (معمولا در سطح جملات). هنگامی که یک تکه از متن ساختار نیافته با استفاده از پردازش زبان طبیعی (NLP) تحلیل می‌شود، به هر مفهوم بر مبنای روشی که لغات احساسی به مفهوم و امتیاز تخصیص داده شده به آن مرتبط می‌شوند، در محیط مشخص شده امتیازی تخصیص داده خواهد شد.


تصویر

این کار امکان حرکت به سمت درک احساسات پیچیده‌تر را فراهم می‌کند، زیرا در حال حاضر امکان تنظیم مقدار احساسات یک مفهوم، با ویرایش‌هایی که ممکن است روی آن انجام بگیرد مرتبط است. واژگانی که احساس بیان شده در یک مفهوم را خنثی، منفی یا تشدید می‌کنند، در واقع امتیاز آن را دستخوش تغییر کرده‌اند. در عین حال، اگر هدف شناسایی استحکام احساسات در متن به جای قطبش کلی آن باشد، می‌توان به متن امتیاز استحکام احساسات مثبت و منفی تخصیص داد.

بازگشت به “شبیه سازی دیتا ساینس - Data science”