در مورد نقشه خودسازماندهی چه میدانیم ؟

داده کاوی فرآیندی است که در آن داده‌ها از جنبه های مختلف مورد تجزیه وتحلیل قرار می‌گیرند تا بدین وسیله بتوانیم الگوهای مفید، تازه و قابل استناد در پایگاه داده‌های بزرگ را بیابیم و آن ها را در قالب اطلاعاتی مفید، برای بالا بردن میزان بازده کار بیان نماییم. کشف این روابط به ما برای بهبود تصمیم های مدیریتی کمک می کند.
IT_Specialist
پست: 14
تاریخ عضویت: شنبه ژولای 20, 2019 4:27 pm

در مورد نقشه خودسازماندهی چه میدانیم ؟

پست توسط IT_Specialist » دو شنبه ژولای 29, 2019 11:16 am

در مورد نقشه خودسازماندهی چه میدانیم ؟

تصویر
یک نقشه خودسازمانده (SOM) یک روش خوشه بندی است که به شما کمک می کند دسته بندی ها را در مجموعه داده های بزرگ کشف کنید، مانند پیدا کردن پروفایل های مشتری بر اساس لیستی از خرید های گذشته. این یک نژاد ویژه از شبکه های عصبی بی نظیر است که در آن نورون ها (همچنین گره ها یا بردارهای مرجع ) نامیده می شوند در یک شبکه ی یک بعدی، که می تواند به شکل مستطیل یا شش ضلعی باشد.

از طریق تکرار چندگانه، نورونهای شبکه به تدریج در اطراف مناطق با تراکم بالا از نقاط داده جمع می شوند. از این رو، مناطقی که نورونهای زیادی دارند ممکن است خوشه های زیر را در داده ها نشان دهند. همانطور که نورونها حرکت می کنند، آنها به طور غریزی خم می شوند و شبکه را پیچ می زنند تا دقیقا منعکس کننده شکل کلی توپولوژی داده های ما باشند.

گام به گام ویژوال
یک نمونه از یک نوع داده با بیش از دو ابعاد، رنگ است. رنگ ها دارای سه بعد هستند، که معمولا با ارزش های RGB (قرمز، سبز، آبی) نشان داده می شوند. در این مثال، ما خواهیم دید که چگونه SOM می تواند دو خوشه رنگ را تشخیص دهد.

نسل اطلاعات
ما دو رنگ زرد و سبز را انتخاب کردیم که برای تولید نمونه های تصادفی برای تشکیل دو خوشه ساخته شد. ما می توانیم خوشه های رنگ ما را با استفاده از مقادیر آبی و سبز تجسم کنیم، که ابعادی است که خوشه ها بیشتر متمایز می شوند.
تصویر

IT_Specialist
پست: 14
تاریخ عضویت: شنبه ژولای 20, 2019 4:27 pm

Re: در مورد نقشه خودسازماندهی چه میدانیم ؟

پست توسط IT_Specialist » دو شنبه ژولای 29, 2019 11:45 am

تحلیل داده ها
زمان ساخت SOM ما این است. ما از یک شبکه مستطیل 8 × 8 استفاده کردیم، در مجموع 64 نورون وجود داشت. در ابتدا، نورونهای شبکه SOM در موقعیت های تصادفی شروع می شوند، اما آنها به تدریج به شکل قالب بندی داده های ما ماساژ می شوند. این یک فرآیند تکراری است که ما می توانیم از GIF متحرک در زیر مشاهده کنیم:

تصویر

ما می بینیم که شکل شبکه پس از چند صد تکرار، تثبیت می شود. برای بررسی اینکه الگوریتم همگرا بوده است، ما می توانیم تکامل انرژی SOM را در ابتدا نشان دهیم، SOM به سرعت در حال تکامل است، اما به شکل تقریبی داده ها، سرعت تغییر کاهش می یابد.

تصویر

برای دریافت خلاصه ای از تعداد داده هایی که هر نورون مربوط می شود، ما می توانیم یک نقشه فرکانس شبکه را که در زیر نشان داده شده بنویسیم. هر نورون با یک مربع نشان داده شده است، و منطقه صورتی درون مربع نشان دهنده تعداد نسبی نقاط داده شده است که نورون نزدیکترین به بزرگترین منطقه صورتی است، نقاط داده ای بیشتر توسط آن نورون نشان داده شده است.

تصویر



از نقشه فرکانس، می توان یک تقسیم واضح را بین خوشه نرون راست چپ از یک خوشه پایین سمت راست کوچک جدا کرد. این تقسیم توسط نورون های درون با مربع های کوچک یا بدون صورتی نشان داده شده است.

برای تأیید اینکه در واقع تقسیم وجود دارد، می توانیم آنچه را که یک ماتریس U نامیده می شود، طرح کنیم ، که نشان می دهد که چندین نورون در فضای دو بعدی متفاوت هستند. هنگامی که دو نورون به مجموعه های مختلف داده های مختلف متصل می شوند، آنها با فاصله بزرگتر، با رنگ صورتی مشخص می شوند. از سوی دیگر، نورون هایی که نقاط داده مشابه را با فاصله های کوتاه تر جدا می کنند، با رنگ آبی مشخص می شوند. با مقایسه اندازه خوشه های نورون، می توان نتیجه گرفت که خوشه بزرگتر در سمت چپ بالایی احتمالا مربوط به گروه بزرگتر از نقاط داده زرد است، در حالی که خوشه پایین سمت راست کوچکتر به نقطه داده های سبز می رسد.

تصویر

IT_Specialist
پست: 14
تاریخ عضویت: شنبه ژولای 20, 2019 4:27 pm

Re: در مورد نقشه خودسازماندهی چه میدانیم ؟

پست توسط IT_Specialist » دو شنبه ژولای 29, 2019 11:47 am

چگونه SOM کار می کند؟

به طور خلاصه، یک SOM شامل نورون ها در شبکه می شود که به تدریج با شکل ذاتی داده های ما سازگار می شود. نتیجه نهایی ما را قادر می سازد تا نقاط داده را تصور کنیم و خوشه ها را در ابعاد پایین تر شناسایی کنیم.

پس چگونه شبکه SOM شکل داده های ما را یاد بگیرد؟ خوب، این کار در یک فرایند تکرار انجام می شود، که در مراحل زیر خلاصه شده است و در GIF متحرک زیر نمایش داده می شود:

مرحله 0 : تصادفی نورونهای شبکه را در فضای داده قرار می دهد.

مرحله 1 : یک نقطه داده را انتخاب کنید، به طور تصادفی یا سیستماتیک از طریق مجموعه داده ها به صورت صحیح دوچرخه سواری کنید

مرحله 2 : نورون نزدیکترین به نقطه داده انتخاب شده را پیدا کنید. این نورون بهترین واحد تطبیق (BMU) نام دارد.

مرحله 3 : BMU را نزدیک تر به نقطه داده حرکت دهید. فاصله بین BMU با سرعت یادگیری تعیین می شودکه پس از هر تکرار کاهش می یابد.

مرحله 4 : همسایگان BMU را نزدیکتر به آن نقطه داده قرار دهید، در حالی که دورتر همسایگان کمتر حرکت می کنند. همسایگان با استفاده از شعاع اطراف BMU شناسایی می شوند و ارزش این شعاع پس از هر تکرار کاهش می یابد.

مرحله 5 : سرعت یادگیری و شعاع BMU را قبل از تکرار مراحل 1 تا 4 به روز کنید. این مراحل را تا زمانی که موقعیت نورون ها تثبیت شده است، بسنجید.

فرآیند تدریجی SOM.
تصویر
شکل . پردازش تدریجی SOM.

سرعت یادگیری و شعاع BMU باید از طریق اعتبار سنجی تنظیم شود. اگر مقادیر برای هر دو خیلی بالا باشد، نورونها به طور مداوم بدون قرار گرفتن در معرض قرار می گیرند. اما اگر مقادیر خیلی کم باشد، تجزیه و تحلیل به طول نانو به سمت موقعیت مطلوب خود ادامه خواهد داد. از این رو، ابتدا ابتدا با افزایش میزان یادگیری و شعاع BMU، قبل از کاهش آن در طول زمان، ایده آل است.

یکی دیگر از ویژگی های مورد نیاز برای اعتبار سنجی، تعداد مطلوب نورون ها در شبکه است. به یاد بیاورید که به دلیل اینکه هر نورون دارای نقاط داده های متعدد است با آن مرتبط است، می توان آن را به عنوان یک مینی خوشه درمان کرد. بنابراین می توانیم هر نورون را تأیید کنیم تا ببینیم آیا داده های مربوط به آن با خوشه های زیر شناخته شده، مثلا، پروفایل های مصرف کننده مطابقت دارند. با این حال، برای اینکه چنین خوشه ها تقطیر شوند، باید نورونهای کمتری نسبت به نقاط داده وجود داشته باشد، به طوری که نقاط اطلاعات مشابه می توانند به هر نورون نقشه بندی شوند.

یک چیز برای یادآوری قبل از اعمال SOM: متغیرهایی که در واحدهای مختلف اندازه گیری می شوند می توانند با سرعت و دقت تحلیل ما مواجه شوند. به عنوان مثال، یک متغیر اندازه گیری شده در سانتیمتر یک مقدار 100 برابر بزرگتر از یک اندازه در متر دارد. برای جلوگیری از هر گونه متغیر از غلبه بر دیگران، ما باید همه متغیرها را استاندارد کنیم. استاندارد سازی به بیان هر متغیر به صورت درصد است، به این معنی که آنها را بر روی یک مقیاس استاندارد یکسان قرار دهیم، به طوری که آنها از یک واحد اندازه گیری مشابه هستند.

محدودیت های SOM
SOM مجموعه داده ها را با متغیرهای بسیاری ساده می کند که برای تجسم و شناسایی خوشه ها مفید است. با این حال، دارای نقایص متعددی است:

آیا متغیرهای دسته ای را به خوبی انجام نمی دهند . برای به دست آوردن یک صفحه پراکنده با اطلاعات خوب برای شناسایی خوشه، SOM مجبور است فرض کنیم که تمام متغیرها در مجموعه داده مستمر هستند. محاسبه مقادیر کلاسیک، به جای گسترش در سراسر طرح، نقاط داده را در مقادیر گسسته قرار می دهد.

محاسبه گران است یک مجموعه داده با متغیرهای بیشتر برای محاسبه فاصله و شناسایی BMU نیاز به زمان بیشتری دارد. برای تسریع محاسبات، ما می توانیم موضع اولیه خود را از یک حالت تصادفی به یک تقریب آگاهانه تر با کمک روش ساده تر کاهش ابعاد، مانند تجزیه و تحلیل اجزای اصلی، بهبود دهیم . با شروع نورونها نزدیک به نقاط داده، برای انتقال آنها به مکانهای بهینه آنها، زمان کمتری نیاز است.

راه حل های بالقوه متناقض . همانطور که هر بار تحليل SOM اجرا مي شود، موقعيت اوليه نورون ها متفاوت است، نقشه نهايي SOM نيز توليد مي شود. گاهی اوقات، خوشه های بیش از حد بزرگ ممکن است تقسیم شده و توسط دو خوشه های مجزا از نورون ها نمایان شوند. بنابراین، قبل از اینکه در مورد تعداد خوشه ها نتیجه گیری شود، تجزیه و تحلیل SOM می تواند برای تضمین سازگاری تکرار شود و خوشه های حاصل باید در برابر موارد واقعی مورد تایید قرار گیرد.

خلاصه
یک نقشه خودسازمانده (SOM) یک شبکه نورونی است که با شکل توپولوژیکی یک مجموعه داده سازگار است، به ما اجازه می دهد تا مجموعه داده های بزرگ را شناسایی کرده و خوشه های بالقوه را شناسایی کنیم.
یک SOM شکل داده های یک مجموعه داده ها را به صورت مکرر حرکت می دهد و نورون های آن را به نقاط داده نزدیک می کند. گروه های مشخصی از نورون ها ممکن است این خوشه های پایه را در داده ها نشان دهند.
SOM ها برای مجموعه داده ها با متغیرهای پیوسته بهترین هستند و باید برای تطابق بررسی شوند. خوشه های نتیجه نیز باید معتبر باشند.


امروز چیزی مفید یاد گرفتی؟ ما خوشحال خواهیم شد هنگامی که ما آموزش های جدید را به شما اطلاع می دهد، به طوری که یادگیری شما ادامه می یابد!

ارسال پست

بازگشت به “آموزش داده کاوی و مباحث مربوط به آن”