عقیده‌کاوی- یک مثال جذاب. نظر شما چیه ؟

در یک کلام، می‌توان گفت که در طول دهه‌های گذشته حجم داده‌های تولیدشده توسط کاربران و کمپانی‌های مختلف بسیار قابل‌توجه بوده که از آن به عنوان Big Data (کلان داده) یاد می‌شود اما این داده‌ها زمانی ارزشمند خواهند بود که بتوان آن‌ها را تحلیل کرده و از دل آن‌ها آمار و ارقامی به دست آوریم که با استفاده از آن‌ها بشود به شناخت.
IT_Specialist
پست: 14
تاریخ عضویت: شنبه ژولای 20, 2019 4:27 pm

عقیده‌کاوی- یک مثال جذاب. نظر شما چیه ؟

پست توسط IT_Specialist » سه شنبه ژولای 23, 2019 12:33 pm

عقیده‌کاوی- یک مثال جذاب. نظر شما چیه ؟
ساخت سیستمی که بتواند اطلاعات ذهنی را به شیوه موثری پردازش کند، نیازمند غلبه بر چالش‌های نو و متعددی است. برای نشان دادن برخی از این چالش‌ها، می‌توان یک مثال واقعی از سیستم جست‌و‌جوی عقاید یا نقد و بررسی‌ها را در نظر گرفت. چنین نرم‌افزاری می‌تواند پاسخگوی نیازهای مهم و شایعی باشد که پیش‌تر تشریح شد. در چنین سیستمی، فرد می‌تواند در یک وبلاگ خاص پیرامون یک سرویس یا محصول (نقد و بررسی‌ها و عقاید ارائه شده برای آن‌ها) جست‌و‌جو کند.
تصویر

این فرد می تواند جست‌و‌جوی خود را به صورت عمومی نیز انجام دهد (در یک موتور جست‌و‌جوی عمومی و یا بدون آوردن کلیدواژه‌های مربوط به نقد و بررسی و نظرات). ساخت و توسعه نرم‌افزار کامل جست‌و‌جوی نقد و بررسی یا عقاید، که بتواند پاسخ صحیحی برای جست‌و‌جوی انجام شده توسط کاربر ارائه کند باید بتواند هر یک از مشکلات و چالش‌هایی که در ادامه بیان شده‌اند را هدف بگیرد.

اگر سیستم در یک موتور جست‌و‌جوی همه‌منظوره ادغام شده باشد، نیاز به تشخیص این است که کاربر در جست‌و‌جوی محتوای ذهنی (subjective) است یا خیر و این خود ممکن است مساله سختی باشد. این در حالیست که امکان دارد کوئری‌هایی از این نوع، شامل اصطلاحات شاخصی مانند «reviews» ،«review» یا «opinions» باشند. همچنین امکان دارد در برنامه یک چک‌باکس برای کاربر فراهم شده باشد تا او بتواند مستقیما نظر خود پیرامون خروجی جست‌و‌جو و اینکه آیا نقد‌و‌بررسی‌ها آنچنان که انتظار می‌رفت هستند یا خیر بیان کند. اما به‌طور کلی، دسته‌بندی کوئری‌ها (به ذهنی و غیر ذهنی) مساله‌ای دشوار است (تا حدی که موضوع رقابت‌های KDD Cup challenge در سال ۲۰۰۵ بوده است).
علاوه بر مساله شناسایی دسته (خوشه) اسناد (محتوای ذهنی یا غیر ذهنی) که همچنان باز محسوب می‌شود، چالش دیگر شناسایی همزمان یا متعاقب اسناد یا بخش‌هایی از اسناد است که شامل محتوای نقد و بررسی و یا عقاید هستند. گاهی این کار آسان است، برای مثال در متن‌های گردآوری شده از سایت‌های نقد و بررسی که در آن‌ها محتوای بررسی‌ها در قالبی کلیشه‌ای ارائه شده‌اند. از این جمله می‌توان به وب‌سایت‌های Epinions.com و Amazon.com اشاره کرد. اگرچه، وب‌لاگ‌ها اغلب حاوی محتوای ذهنی هستند و در نتیجه محل مناسبی برای جست‌و‌جو محسوب می‌شوند (برخلاف سایت‌های فروش، برای کوئری‌های مربوط به سیاست، مردم یا دیگر موارد فاقد ارتباط به محصولات و خدمات، محل مناسب‌تری هستند). اما محتواهای دلخواه ارائه شده در وبلاگ‌ها می‌توانند به‌طور گسترده‌ای در محتوا، سبک، ارائه و حتی سطح دستور زبان متفاوت باشند.
اگر فردی به دنبال اطلاعات ذهنی باشد و جست‌و‌جویی بر همین اساس انجام دهد، برای هر سند موجود (پیرامون هر مبحثی، خواه نقد و بررسی یک محصول باشد و خواه درباره یک کاندید انتخابات)، مساله شناسایی احساسات کلی بیان شده و/یا عقاید مشخص موجود در آن سند (با توجه به ویژگی‌ها یا جنبه‌های مشخصی از جست‌و‌جوی انجام شده توسط کاربر) وجود خواهد داشت. انجام چنین جست‌و‌جوهایی در برخی از سایت‌ها مانند Yahoo! Movies که کاربران باید نقد و بررسی خود پیرامون یک فیلم را همراه با دادن امتیاز به فیلم (سیستم امتیازبندی ثابتی که از پیش توسط سایت تعیین شده) منتشر کنند ساده‌تر محسوب می‌شود. لازم به ذکر است که تحلیل داده‌های ساختار نیافته و متن‌ها برای کامپیوترها سخت‌تر بوده و خود می‌تواند منجر به ایجاد چالش‌های جدیدی بشود. برای مثال، اگر نقل قول‌هایی در مقالات روزنامه‌ها وجود داشته باشد، باید دقت کرد که دیدگاه‌های بیان شده در هر نقل قول به موجودیت درستی اختصاص یابند.
در نهایت، سیستم نیازمند ارائه اطلاعات احساسی گردآوری شده به صورت خلاصه است. این کار می‌تواند شامل برخی یا کلیه مواردی که در ادامه بیان شده‌اند بشود.
تجمیع آرایی که در مقیاس‌های گوناگون ثبت شده‌اند (برای مثال یک سایت از مقیاس ستاره‌ای – یک تا پنج ستاره – و دیگری از رتبه‌بندی با حروف الفبا یا اعداد استفاده می‌کند)
برجسته کردن گزینشی برخی از عقاید
ارائه نقاط مخالفت و اجماع
شناسایی اجتماعات صاحب نظران
محاسبه سطوح گوناگون قدرت در میان صاحب نظران (نظرات چه افرادی ضریب نفوذ بالاتری دارد)
توجه به این نکته لازم است که بصری‌سازی داده‌های احساسات، بهتر از خلاصه‌سازی آن‌ها به صورت متن است. خلاصه‌‌سازی‌های متنی در مسائل سندمحور کاربردی‌تر هستند.

تصویر

بازگشت به “شبیه سازی دیتا ساینس - Data science”