انجام شبیه سازی با الگوریتم kmeans خوشه بندی k

بدون ديدگاه

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Ut elit tellus, luctus nec ullamcorper mattis, pulvinar dapibus leo.

خوشه بندی k میانگین (k-means Clustering)

خوشه بندی k- معنی

از ویکیپدیا، دانشنامه آزاد
 
 
پرش به ناوبریپرش به جستجو

خوشه بندی k- emans روشی برای اندازه گیری بردار است که در اصل از پردازش سیگنال است ، که برای تجزیه و تحلیل خوشه ای در داده کاوی محبوب است. K اهداف خوشه -means به پارتیشن N مشاهدات را به K خوشه که در آن هر مشاهده متعلق به خوشه با نزدیکترین متوسط ، خدمت به عنوان یک نمونه اولیه از خوشه. این منجر به تقسیم فضای داده به سلولهای ورونوی می شود . ک-Means واریانسهای درون خوشه ای (مسافت های مجذور اقلیدسی) را به حداقل می رساند ، اما نه مسافت منظم اقلیدسی ، که می تواند مشکل وبر دشوارتر باشد : میانگین خطاهای مربعی را بهینه می کند ، در حالی که فقط مدیای هندسی مسافت اقلیدسی را به حداقل می رساند. به عنوان مثال ، راه حل های بهتر اقلیدسی با استفاده از K-medians و k-medoids یافت می شود .

مشکل از نظر محاسباتی مشکل است ( NP-hard ). با این حال ، الگوریتم های اکتشافی کارآمد به سرعت به یک مطلوب محلی همگرا می شوند . این معمولا مشابه هستند الگوریتم انتظار، حداکثر برای مخلوط از توزیع گاوسی از طریق یک رویکرد پالایش تکراری کار گرفته شده توسط هر دو k- به معنی و مدل سازی مخلوط گوسی . هر دو از آنها برای مدل سازی داده ها از مراکز خوشه ای استفاده می کنند. با این حال ، خوشه بندی K- به معنای تمایل به یافتن خوشه هایی با مقیاس فضایی قابل مقایسه است ، در حالی که مکانیسم انتظار حداکثر سازی خوشه ها به شکل های مختلف اجازه می دهد.

این الگوریتم رابطه ای گسست با k- نزدیکترین طبقه بندی کننده همسایه دارد ، یک روش محبوب برای یادگیری ماشین برای طبقه بندی است که به دلیل نام اغلب با k -me اشتباه گرفته می شود . استفاده از طبقه بندي همسايه 1 نزديك به مراكز خوشه هاي بدست آمده توسط k- weans طبقه بندي داده هاي جديد را در خوشه هاي موجود قرار مي دهد. این به نزدیکترین طبقه بندی کننده سانتروئید یا الگوریتم Rocchio شناخته می شود .

فهرست

  • 1توضیحات
  • 2تاریخچه
  • 3الگوریتم
    • 3.1الگوریتم استاندارد (ساده و بی معنی)
      • 3.1.1روش های شروع
    • 3.2پیچیدگی
    • 3.3تغییرات
    • 3.4روش هارتگان – وونگ
  • 4بحث
  • 5برنامه کاربردی
    • 5.1کمیت سنجی بردار
    • 5.2تجزیه و تحلیل خوشه ای
    • 5.3یادگیری ویژگی
  • 6ارتباط با الگوریتم های دیگر
    • 6.1مدل مخلوط گاوسی
    • 6.2K-SVD
    • 6.3تجزیه و تحلیل مؤلفه اصلی
    • 6.4میانگین خوشه بندی شیفت
    • 6.5تجزیه و تحلیل مؤلفه مستقل
    • 6.6فیلتر دو طرفه
  • 7مشکلات مشابه
  • 8پیاده سازی نرم افزار
    • 8.1نرم افزار رایگان / منبع آزاد
    • 8.2اختصاصی
  • 9همچنین ببینید
  • 10مرجع

توضیحات ویرایش ]

با توجه به مجموعه ای از مشاهدات ( 1 ، 2 ، … ، n ) ، که در آن هر مشاهده یک وکتور واقعی d- بعدی است ، خوشه بندی k- emans با هدف تقسیم مشاهدات n در k (≤  n ) مجموعه S  = { 1 ،  2 ، … ،  k } به منظور به حداقل رساندن مقدار جمع مربعات (WCSS) (یعنی واریانس ). به طور رسمی ، هدف این است که:

\ displaystyle \ undererset {\ mathbf {S}} {\ operatorname {arg \، min}} sum \ sum _ {i = 1} ^ {k} \ sum _ {\ mathbf {x} \ در S_ {من } \ left \ | \ mathbf {x} – {\ boldsymbol \ mu}} _ {i} \ Right \ | ^ {2 = {\ undererset {\ mathbf {S}} {\ operatorname {arg \، min}}} \ sum _ {i = 1} ^ {k} | S_ {i} | \ operatorname {Var} S_ {i}}

که در آن μ i میانگین امتیازات در i است . این معادل با به حداقل رساندن انحراف مربع جفت از نقاط در همان خوشه است:

\ displaystyle {\ undererset {\ mathbf {S}} {\ operatorname {arg \، min}} sum \ sum _ {i = 1} ^ {k} \، {\ frac {1} {2 | S_ {i } |}} \، \ sum _ {\ mathbf {x}، \ mathbf {y} \ in S_ {i}} \ left \ | \ mathbf {x} – \ mathbf {y} \ Right \ | ^ {2 }

هم ارزی را می توان از هویت استنباط کرد \ displaystyle \ sum _ {\ mathbf {x} \ in S_ {i} left \ left \ | \ mathbf {x} – {\ boldsymbol {\ mu}} _ {i} \ Right \ | ^ {2} = \ sum _ {\ mathbf {x} \ neq \ mathbf {y} \ in S_ {i}} (\ mathbf {x} – {\ boldsymbol {\ mu}} _ {i}) ({\ boldsymbol {\ mu } _ {i} – \ mathbf {y}). از آنجا که واریانس کل ثابت است ، این معادل حداکثر رساندن مجموع انحرافات مربع بین نقاط در خوشه های مختلف (بین کل خوشه ای مربعها ، BCSS) ، [1] است که از قانون واریانس کل بدست می آید .

تاریخچه ویرایش ]

اصطلاح ” K -means” برای اولین بار توسط جیمز MacQueen در سال 1967 مورد استفاده قرار گرفت، [2] هر چند این ایده به می رود هوگو Steinhaus در سال 1956. [3] الگوریتم استاندارد برای اولین بار توسط استوارت لوید از پیشنهاد شد آزمایشگاههای بل در سال 1957 به عنوان یک تکنیک برای مدولاسیون کد پالس ، اگرچه تا سال 1982 به عنوان مقاله ژورنالی منتشر نمی شد. [4] در سال 1965 ، ادوارد دبلیو فورفی اساساً همان روش را منتشر کرد ، به همین دلیل است که گاهی اوقات به عنوان لوید-بخشش یاد می شود. [5]

الگوریتم ها ویرایش ]

الگوریتم استاندارد (ساده و ساده) ویرایش ]

 
همگرایی K- معنی

متداول ترین الگوریتم از تکنیک پالایش تکراری استفاده می کند. به دلیل همه جا بودن آن ، اغلب ” الگوریتم k -means” خوانده می شود. از آن به عنوان الگوریتم لوید ، به ویژه در جامعه علوم رایانه نیز یاد می شود. گاهی اوقات نیز به عنوان “ساده و بی تکلف اشاره K -means”، چرا که وجود بسیار سریعتر جایگزین وجود دارد. [6]

با توجه به مجموعه اولیه k به معنی (1) ، …، k (1) ( الف) را ببینید (الگوریتم) با استفاده از دو مرحله متناوب پیش می رود: [7]

مرحله تکلیف : هر مشاهده را به خوشه ای اختصاص دهید که میانگین آن دارای حداقل مربعات مسافت اقلیدسی باشد ، این به طور شهودی “نزدیکترین” میانگین است. [8] (از لحاظ ریاضی ، این بدان معنی است که می توانید مشاهدات را طبق نمودار Voronoi ایجاد شده توسط بخش بندی کنید.)
\ displaystyle S_ {i} ^ {(t)} = {\ big \ {} x_ {p}: {\ big \ |} x_ {p} -m_ {i} ^ {(t)} big \ بزرگ \ |} ^ {2} \ leq {\ big \ |} x_ {p} -m_ {j} ^ {(t) {\ big \ |} ^ {2} \ \ forall j، 1 \ leq j \ leq k {\ بزرگ \}} ،}
جایی که هر کدام {\ نمایشگر x_ {p}} دقیقاً به یک اختصاص داده شده است \ displaystyle S ^ {(t)}}حتی اگر بتوان به دو یا چند نفر از آنها اختصاص داد.
مرحله بروزرسانی : وسایل جدید ( سانتریفوژ ) مشاهدات موجود در خوشه های جدید را محاسبه کنید.
\ displaystyle m_ {i} ^ {(t + 1)} = {\ frac {1} {\ left | S_ {i} ^ {(t)} \ Right |} \ sum _ {x_ {j} \ در S_ {i} ^ {(t)}} x_ {j}}

این الگوریتم وقتی تغییر کرده است که تکالیف دیگر تغییر نکنند. الگوریتم تضمین پیدا کردن مطلوب را تضمین نمی کند. [9]

این الگوریتم اغلب به عنوان اختصاص اشیاء به فاصله نزدیک به نزدیکترین خوشه ارائه می شود. با استفاده از یک تابع فاصله متفاوت به غیر از (مربع) فاصله اقلیدسی ممکن است الگوریتم از همگرایی متوقف شود. تغییرات مختلفی از K -means مانند کروی K -means و K -medoids پیشنهاد شده است تا اجازه استفاده از دیگر اقدامات از راه دور.

روشهای شروع ویرایش ]

متداول ترین روش های اولیه سازی ، بخشش و پارتیشن تصادفی هستند. [10] متد faly به طور تصادفی k مشاهدات k را از مجموعه داده انتخاب می کند و از اینها به عنوان وسیله اولیه استفاده می کند. روش پارتیشن پارتیشن اول به طور تصادفی یک خوشه را به هر مشاهده اختصاص می دهد و سپس به مرحله به روز رسانی ادامه می دهد ، در نتیجه میانگین اولیه را محاسبه می کند که سانتروئید نقاط اختصاص یافته خوشه است. متد Faly تمایل دارد وسایل اولیه را گسترش دهد ، در حالی که Random Partition همه آنها را نزدیک به مرکز مجموعه داده قرار می دهد. با توجه به Hamerly و همکاران، [10] روش پارتیشن تصادفی به طور کلی برای الگوریتم ترجیح مانند است ک معنای -harmonic و فازی K -means. برای حداکثر انتظار و استانداردK الگوریتم -means، روش Forgy از مقدار دهی اولیه ارجح است. با این حال ، یک مطالعه جامع توسط Celebi و همکاران ، [11] نشان داد که روشهای ابتدایی محبوب مانند Falin ، پارتیشن تصادفی و Maxmin اغلب ضعیف عمل می کنند ، در حالی که رویکرد بردلی و فیاض [12] “به طور مداوم” در “بهترین گروه” عمل می کند. و k -means ++ “عموماً خوب” عمل می کند.

این الگوریتم همگرایی بهینه جهانی را تضمین نمی کند. نتیجه ممکن است به خوشه های اولیه بستگی داشته باشد. از آنجایی که الگوریتم معمولاً سریع است ، اجرای چندین بار آن با شرایط شروع متفاوت معمولی است. با این حال ، عملکرد بدترین حالت می تواند کند باشد: به ویژه مجموعه های نقطه خاص ، حتی در دو بعد ، در زمان نمایی همگرا شوند ، یعنی Ω ( n ) . [13] به نظر نمی رسد که این مجموعه ها در عمل بوجود می آیند: این امر با این واقعیت تأیید می شود که زمان اجرای صاف K- معنی چند جمله ای است. [14]

مرحله “انتساب” به “مرحله انتظار” گفته می شود ، در حالی که “مرحله به روز رسانی” یک مرحله حداکثر سازی است ، و این الگوریتم را به نوعی از الگوریتم انتظار-حداکثر تعمیم یافته تبدیل می کند .

پیچیدگی ویرایش ]

یافتن راه حل بهینه برای مسئله خوشه بندی k -means برای مشاهده در ابعاد d :

  • NP-hard به طور کلی در فضای اقلیدسی (از ابعاد d ) حتی برای دو خوشه ، [15] [16] [17] [18]
  • NP- سخت برای تعداد کلی خوشه k حتی در هواپیما ، [19]
  • اگر k و d (بعد) ثابت باشند ، مسئله می تواند دقیقاً به موقع حل شود\ displaystyle O (n ^ {dk + 1})، جایی که n تعداد موجودی است که باید خوشه بندی شود. [20]

بنابراین ، انواع الگوریتم های اکتشافی مانند الگوریتم لوید ذکر شده در بالا به طور کلی استفاده می شود.

زمان اجرای الگوریتم لوید (و اکثر انواع) است {\ displaystyle O (nkdi)، [9] [21] که در آن:

  • N است تعداد د بردار بعدی (به خوشه می شود)
  • k تعداد خوشه ها
  • من تعداد تکرارها تا همگرایی مورد نیاز است.

در داده هایی که دارای ساختار خوشه ای هستند ، تعداد تکرارها تا زمان همگرایی غالباً اندک است ، و نتایج فقط پس از دوازده تکرار اول کمی بهبود می یابد. بنابراین الگوریتم لوید اغلب در عمل از پیچیدگی “خطی” در نظر گرفته می شود ، اگرچه در بدترین حالت superpolynomial هنگام اجرای تا همگرایی است. [22]

  • در بدترین حالت ، الگوریتم لوید نیاز دارد \ displaystyle i = 2 ^ {\ امگا ({\ sqrt {n}})}تکرارها ، به طوری که بدترین حالت پیچیدگی الگوریتم لوید بسیار قطبی است . [22]
  • الگوریتم k -means لوید دارای مدت زمان اجرای چند جمله ای است. نشان داده شده است كه [14] برای مجموعه دلخواه n از نقاط در{\ displaystyle [0،1] ^ {d}}اگر هر نقطه به طور مستقل با توزیع عادی با میانگین 0 و واریانس مختل شود\ displaystyle \ sigma ^ {2}}، سپس زمان اجرای انتظار می رود از الگوریتم k -means محدود شود\ displaystyle O (n ^ {34} k ^ {34} d ^ {8} \ log ^ {4} (n) / \ sigma ^ {6})، که چند جمله ای در n ، k ، d و است\ displaystyle 1 / \ sigma.
  • مرزهای بهتری برای موارد ساده ثابت شده است. به عنوان مثال ، در [23] نشان داده شده است که زمان اجرای الگوریتم k -means محدود است\ displaystyle O (dn ^ {4} M ^ {2})برای n نقاط در یک شبکه عدد صحیح {\ صفحه نمایش \ {1 ، \ نقطه ، M \} ^ {d}}.

الگوریتم لوید رویکرد استاندارد برای این مشکل است. با این حال ، زمان پردازش زیادی را صرف محاسبه فاصله بین هر یک از مراکز خوشه k و نقاط داده n می کند. از آنجایی که معمولاً امتیازها بعد از چند تکرار در همان خوشه ها باقی می مانند ، بخش اعظم این کار غیر ضروری است و اجرای ساده لوحی را ناکارآمد می کند. برخی از پیاده سازی ها برای ایجاد مرزها و تسریع در الگوریتم لوید از حافظه نهان و مثلث استفاده می کنند. [9] [24] [25] [26] [27]

تغییرات ویرایش ]

  • بهینه سازی شکافهای طبیعی جنس : به معنی داده های k برای داده های یک متغیره کاربرد دارد
  • خوشه بندی k -medians به جای میانگین ، از مدیان در هر بعد استفاده می کند و این روش به حداقل می رسد{\ صفحه نمایش L_ {1}}هنجار ( هندسه تاکسیکاب ).
  • k -medoids (همچنین: پارتیشن بندی Around Medoids ، PAM) بجای میانگین از مدوئید استفاده می کند و به این ترتیب مقدار مسافت ها را برایتوابع فاصله دلخواه به حداقل می رساند.
  • خوشه بندی C-Means Fuzzy یک نسخه نرم افزاری از k –means است ، که در آن هر نقطه داده دارای درجه ای فازی از تعلق به هر خوشه است.
  • مدلهای ترکیبی گاوسایی که با الگوریتم انتظار حداکثر ( آموزش الگوریتم EM) آموزش دیده اند ، به جای تکالیف قطعی ، و توزیع های چند متغیره گاوسایی به جای معنی ، تکالیف احتمالی را به خوشه ها حفظ می کنند.
  • k -means ++ مراکز اولیه را به روشی انتخاب می کند که یک حد بالایی قابل اثبات در هدف WCSS داشته باشد.
  • الگوریتم فیلتر از درختان kd برای سرعت بخشیدن به هر مرحله از k -met استفاده می کند. [28]
  • برخی از روشها سعی می کنند با استفاده از نابرابری مثلث ، هر مرحله از K- Speed ​​را سرعت بخشیم . [24] [25] [26] [29] [27]
  • با تعویض نقاط بین خوشه ها ، از optima محلی فرار کنید. [9]
  • الگوریتم خوشه بندی Spherical k -means برای داده های متنی مناسب است. [30]
  • انواع سلسله مراتبی مانند Bisaching k -means ، [31] X به معنای خوشه بندی [32] و G-به معنای خوشه بندی [33] به طور مکرر خوشه ها را برای ساختن یک سلسله مراتب تقسیم می کنند ، همچنین می توانند سعی کنند به طور خودکار تعداد بهینه خوشه ها را در یک مجموعه داده تعیین کنند. .
  • اقدامات ارزیابی داخلی خوشه مانند شبح خوشه می تواند در تعیین تعداد خوشه ها مفید باشد.
  • مینکوفسکی وزن K -means به طور خودکار محاسبه خوشه وزن از ویژگی های خاص، حمایت از ایده بصری است که یکی از ویژگی های ممکن است درجات مختلف ارتباط در ویژگی های مختلف داشته باشد. [34] این وزنها همچنین می توانند برای مقیاس مجدد یک مجموعه داده داده مورد استفاده قرار گیرند ، و این احتمال را می دهد که یک شاخص اعتبار خوشه در تعداد خوشهای مورد انتظار بهینه شود. [35]
  • مینی دسته ای k – معنی: k- معنی تغییر دارد با استفاده از نمونه های “mini batch” برای مجموعه داده هایی که در حافظه جای نمی گیرند. [36]

روش هارتگان – وونگ ویرایش ]

روش هارتگان و وونگ [9] روشی پیچیده تر و محاسبه گرانه تر برای انجام k- way را فراهم می کند . این هنوز یک روش اکتشافی است.

\ displaystyle \ varphi (S_ {j}) هزینه فردی است {\ نمایشگر S_ {j}} تعریف شده توسط \ displaystyle \ sum _ {x \ in S_ {j}} (x- \ mu _ {j}) ^ {2}، با \ displaystyle \ mu _ {j}} مرکز خوشه

مرحله تکلیف: روش هارتگان و وونگ با تقسیم نقاط در خوشه های تصادفی شروع می شود\ displaystyle \ {S_ {j} \} _ {j \ in \ {1 ، \ cdots k \}}}.

مرحله به روزرسانی : بعد از آن تعیین می کند{\ displaystyle n ، m \ in \ {1، \ ldots، k \} و {\ displaystyle x \ in S_ {n} که عملکرد زیر به حداقل می رسد

\ displaystyle \ Delta (m، n، x) = \ varphi (S_ {n) + \ varphi (S_ {m}) – \ varphi (S_ {n} \ smallsetminus \ {x \}) – \ varphi ( S_ {m} \ cup \ {x \}).

برای {\ displaystyle x، n، m که به این حداقل ممکن می رسند ، {\ displaystyle x از خوشه حرکت می کند {\ نمایشگر S_ {n} به خوشه {\ نمایشگر S_ {m}.

خاتمه : الگوریتم یک بار خاتمه می یابد\ displaystyle \ Delta (m، n، x) برای همه بزرگتر از صفر است {\ displaystyle x، n، m.

الگوریتم را می توان با حرکت فوری سرعت داد {\ displaystyle x از خوشه {\ نمایشگر S_ {n} به خوشه {\ نمایشگر S_ {m} به محض آن {\ displaystyle x، n، m برای آن یافت شده است \ displaystyle \ Delta (m، n، x) <0. این سرعت بیشتر می تواند هزینه نتیجه نهایی را بیشتر کند.

کارکرد \ displaystyle \ Deltaبا استفاده از برابری می توان نسبتاً کارآمد ارزیابی کرد [37]

\ displaystyle \ Delta (x، n، m) = {\ frac {\ mid S_ {n} \ mid {\ mid S_ {n} \ mid -1} \ cdot \ lVert \ mu _ {n} – x \ rVert ^ {2} – {\ frac {\ mid S_ {m} \ mid} {\ mid S_ {m} \ mid +1}} \ cdot \ lVert \ mu _ {m} -x \ rVert ^ 2}.

بحث ویرایش ]

 
نمونه بارز همگرایی k- به معنی حداقل محلی است. در این مثال ، نتیجه خوشه بندی k- emans (شکل مناسب) با ساختار خوشه آشکار مجموعه داده ها مغایرت دارد. حلقه‌های کوچک نقاط داده هستند ، چهار ستاره پرتوی سانتریفیوژها (معنی) هستند. پیکربندی اولیه در شکل سمت چپ است. این الگوریتم پس از پنج تکرار ارائه شده در شکل ، از چپ به راست همگرا می شود. این تصویر با اپلت Mirkes Java تهیه شده است. [38]
 
نتیجه خوشه بندی k- به معنای مجموعه داده های گل Iris و گونه های واقعی با استفاده از ELKI است . ابزارهای خوشه ای با استفاده از نمادهای بزرگتر و نیمه شفاف مشخص می شوند.
 
خوشه بندی k- emans در مقابل دسته بندی EM بر روی مجموعه داده های مصنوعی (“ماوس”). تمایل K- به معنی تولید خوشه هایی با اندازه مساوی در اینجا به نتایج بد منجر می شود ، در حالی که EM از توزیع های گاوسایی با شعاع مختلف موجود در مجموعه داده ها سود می برد.

سه ویژگی اصلی کارآیی k- emans که آن را کارآمد می سازند ، اغلب به عنوان بزرگترین اشکال در نظر گرفته می شوند:

  • فاصله اقلیدسی به عنوان یک متریک استفاده می شود و از واریانس به عنوان اندازه گیری پراکندگی خوشه استفاده می شود.
  • تعداد خوشه k یک پارامتر ورودی است: انتخاب نامناسب k ممکن است نتایج ضعیفی به همراه آورد. به همین دلیل است که هنگام انجام k- emans ، انجام چک های تشخیصی برای تعیین تعداد خوشه ها در مجموعه داده ها مهم است .
  • همگرایی به حداقل محلی ممکن است نتایج ضد انعطاف پذیر (“اشتباه”) ایجاد کند (به عنوان مثال در شکل مراجعه کنید).

یک محدودیت مهم در مدل k- مدل ، مدل خوشه ای آن است. این مفهوم مبتنی بر خوشه های کروی است که از هم جدا هستند به طوری که میانگین به سمت مرکز خوشه ها همگرا می شود. انتظار می رود این خوشه ها به اندازه ی مشابه باشند ، به طوری که تعیین تکلیف به نزدیکترین مرکز خوشه ای ، وظیفه صحیح است. به عنوان مثال ، اعمال k- eman با مقدار\ displaystyle k = 3بر روی مجموعه داده های شناخته شده گل Iris ، نتیجه اغلب قادر به جدا کردن سه گونه عنبیه موجود در مجموعه داده ها نیست. با\ displaystyle k = 2، دو خوشه قابل مشاهده (یکی شامل دو گونه) کشف می شود ، در حالی که با \ displaystyle k = 3یکی از دو خوشه به دو قسمت مساوی تقسیم می شود. در حقیقت،\ displaystyle k = 2با وجود مجموعه داده ها که شامل 3 کلاس است ، برای این مجموعه داده مناسب تر است . مانند هر الگوریتم خوشه بندی دیگر ، نتیجه k- معنی فرضیه هایی را ارائه می دهد که داده ها معیارهای خاصی را برآورده می کند. در برخی از مجموعه های داده به خوبی کار می کند ، و در مورد دیگران خراب نمی شود.

نتیجه k- emans می تواند به عنوان سلولهای Voronoi خوشه مشاهده شود. از آنجا که داده ها در نیمه راه بین میانگین های خوشه ای تقسیم شده اند ، این می تواند منجر به شکافهای زیر حد حداکثر شود ، همانطور که در مثال “موش” مشاهده می شود. مدل های گاوسی استفاده شده توسط الگوریتم انتظار-حداکثر (احتمالاً تعمیم K- معنی) با داشتن هر دو واریانس و کواریانس انعطاف پذیر تر هستند. نتیجه EM بدین ترتیب می تواند خوشه هایی با اندازه متغیر را بسیار بهتر از K- emans و همچنین خوشه های همبسته (نه در این مثال) قرار دهد. K- means ارتباط نزدیکی با مدل سازی بی پارامتری بیزی دارد . [39]

برنامه ها ویرایش ]

خوشه بندی k- emans به راحتی در مجموعه های داده بزرگ حتی به راحتی هنگام استفاده از اکتشافی مانند الگوریتم لوید کاربرد دارد . با موفقیت در تقسیم بازار ، دید رایانه ای و نجوم در میان بسیاری از حوزه های دیگر استفاده شده است. این اغلب به عنوان یک مرحله پیش پردازش برای الگوریتم های دیگر ، به عنوان مثال برای یافتن پیکربندی شروع استفاده می شود.

کمیت بردار ویرایش ]

تصویر رنگی دو کانال (برای اهداف تصویرگری – فقط قرمز و سبز).
 
اندازه گیری بردار از رنگهای موجود در تصویر فوق به سلولهای ورونی با استفاده از K- medians.

k- emans از پردازش سیگنال سرچشمه می گیرد ، و هنوز هم استفاده در این دامنه را می یابد. به عنوان مثال ، در گرافیک های رایانه ای ، اندازه گیری رنگ وظیفه کاهش پالت رنگ یک تصویر به تعداد ثابت رنگ k است . K الگوریتم -means به راحتی می توان برای این کار استفاده می شود و نتایج رقابتی تولید می کند. مورد استفاده برای این روش تقسیم بندی تصویر است . استفاده های دیگر از کوانتیزاسیون برداری شامل غیرتصادفی ، به عنوان ک -means به راحتی می توان به انتخاب ک متفاوت اما اشیاء اولیه از یک مجموعه داده های بزرگ برای تجزیه و تحلیل بیشتر.

تجزیه و تحلیل خوشه ای ویرایش ]

در تجزیه و تحلیل خوشه ای ، الگوریتم k- emans را می توان برای پارتیشن بندی داده های ورودی در پارتیشنهای k (خوشه ها) استفاده کرد.

با این حال ، الگوریتم خالص K- معنی بسیار انعطاف پذیر نیست ، و به همین ترتیب از کاربرد محدودی برخوردار است (به جز وقتی که اندازه گیری بردار مانند بالا در واقع مورد استفاده مطلوب است). به طور خاص ، پارامتر k شناخته می شود وقتی که توسط محدودیت های بیرونی ارائه نشود ، انتخاب سخت (همانطور که در بالا گفته شد). محدودیت دیگر این است که با توابع فاصله دلخواه یا روی داده های غیر عددی قابل استفاده نیست. برای این موارد استفاده ، بسیاری از الگوریتم های دیگر برتر هستند.

یادگیری ویژگی ویرایش ]

خوشه بندي k- emans به عنوان يك مرحله يادگيري ويژه (يا يادگيري فرهنگ لغت ) ، در يادگيري ( نيمه ) تحت نظارت يا يادگيري بدون نظارت مورد استفاده قرار گرفته است . [40] رویکرد اصلی این است که ابتدا با استفاده از داده های آموزش ورودی (که نیازی به برچسب زدن ندارند) یک نمایندگی خوشه بندی k- значи را ایجاد کنید. سپس ، برای ایجاد هرگونه داده ورودی به فضای ویژگی جدید ، یک تابع “رمزگذار” مانند ماتریس-محصول آستانه داده با محل های سانتروئید ، فاصله از داده به هر سانتروئید را محاسبه می کند ، یا به سادگی یک تابع نشانگر برای نزدیکترین سانتروئید ، [40] [41]یا برخی از انتقال صاف از مسافت. [42] از طرف دیگر ، با تبدیل فاصله نمونه خوشه از طریق RBF گاوسی ، لایه پنهان شبکه توابع پایه شعاعی بدست می آید . [43]

این استفاده از k -me ها با موفقیت با طبقه بندی کننده های ساده و خطی برای یادگیری نیمه نظارت در NLP (به طور خاص برای شناخت موجودیت نامگذاری شده ) [44] و در دید رایانه ترکیب شده است . در یک کار تشخیص شیء ، مشخص شد که عملکرد قابل مقایسه ای با رویکردهای یادگیری ویژگی پیچیده تر مانند اتوکد کننده ها و ماشین های بولتزمن محدود دارد . [42] اما ، برای عملکرد معادل ، به داده های بیشتری نیاز دارد ، زیرا هر نقطه داده فقط به یک “ویژگی” کمک می کند. [40]

ارتباط با الگوریتم های دیگر ویرایش ]

مدل مخلوط گاوسی ویرایش ]

آهسته “الگوریتم استاندارد” برای ک -means خوشه، و مرتبط با آن الگوریتم انتظار، حداکثر ، یک مورد خاص از یک مدل مخلوط گوسی است، به طور خاص، مورد محدود که ثابت تمام کوواریانس به قطر، برابر و واریانس کوچک بینهایت کوچک. [45] : 850 به جای واریانس های کوچک ، می توان از یک تکلیف خوشه ای سخت استفاده کرد تا معادل دیگری از خوشه بندی k- emans را به یک مورد خاص از مدل سازی مخلوط گاوسی “سخت” نشان دهد . [46] ( 11.4.2.5 ) این بدان معنی نیست که استفاده از مدل سازی مخلوط گاوسی برای محاسبه k کارآمد است.معنی ، اما فقط این که یک رابطه تئوریک وجود دارد ، و اینکه مدل سازی مخلوط گاوسی را می توان به عنوان تعمیم K- معنی تفسیر کرد . در عوض ، پیشنهاد شده است که از خوشه بندی k-ნიშნავს برای پیدا کردن نقاط شروع برای مدل سازی مخلوط گاوس روی داده های دشوار استفاده شود. [45] : 849

K-SVD ویرایش ]

یکی دیگر از تعمیم الگوریتم k -means الگوریتم K-SVD است که نقاط داده را به عنوان ترکیبی خطی پراکنده از “بردارهای کدنویسی” تخمین می زند. k -means مربوط به مورد خاص استفاده از یک وکتور کتاب کد واحد ، با وزن 1. [47]

تجزیه و تحلیل مؤلفه اصلی ویرایش ]

راه حل آرام خوشه بندی k- emans ، مشخص شده توسط شاخص های خوشه ، توسط آنالیز مؤلفه اصلی (PCA) ارائه شده است. [48] [49] فضاسازی PCA که توسط مسیرهای اصلی پوشانده شده است با فضای فرعی سنستروئید خوشه یکسان است. شهود آن است که ک– توصیف خوشه های شکل کروی (مانند توپ) است. اگر داده ها دارای 2 خوشه باشند ، خط اتصال دو سانتروئید بهترین جهت طرح ریزی 1 بعدی است ، که همچنین اولین جهت PCA است. برش خط در مرکز جرم خوشه ها را جدا می کند (این آرامش مداوم از شاخص خوشه گسسته است). اگر داده ها دارای سه خوشه باشند ، هواپیمای 2 بعدی که توسط سه مرکز استریت خوشه ای پوشیده شده است ، بهترین پیش بینی 2 بعدی است. این هواپیما همچنین با دو بعد اول PCA تعریف شده است. خوشه های به خوبی از هم جدا به طور موثری توسط خوشه های توپ شکل مدل می شوند و بنابراین توسط K-means کشف می شوند . جدا شدن خوشه های بدون توپ به سختی می توانند در نزدیکی از هم جدا شوند. به عنوان مثال ، دو خوشه به شکل نیم ماه در هم تنیده در فضا ، هنگام پیش بینی بر روی زیر فضای PCA ، از یکدیگر جدا نمی شوند.انتظار نمی رود k -means روی این داده ها به خوبی عمل کند. [50] تولید نمونه های ضد شماری ساده است به این گفته که فضای زیر هسته ی خوشه ای توسط مسیرهای اصلی پوشانده شود. [51]

میانگین خوشه بندی تغییر ویرایش ]

الگوریتم های خوشه بندی متوسط ​​میانگین تغییر مجموعه ای از نقاط داده را به اندازه مجموعه داده های ورودی حفظ می کنند. در ابتدا ، این مجموعه از مجموعه ورودی کپی می شود. سپس این مجموعه به طور تکراری با میانگین آن نقاط در مجموعه جایگزین می شود که در فاصله معینی از آن نقطه قرار دارند. در مقابل ، k -means این مجموعه به روز شده را در نقاط K معمولاً بسیار کمتر از تعداد نقاط موجود در مجموعه داده های ورودی محدود می کند و با استفاده از میانگین تمام نقاط موجود در مجموعه ورودی که به آن نقطه نزدیک هستند ، هر نقطه از این مجموعه را جایگزین می کند. نسبت به سایر موارد (به عنوان مثال در قسمت بندی Voronoi هر نقطه به روزرسانی). یک الگوریتم تغییر مکان متوسط ​​که به k- way مشابه است ، به نام احتمال تغییر مکان (shift) نامیده می شود، مجموعه ای از نقاط تحت تعویض را با میانگین کلیه نقاط موجود در مجموعه ورودی که در فاصله معینی از مجموعه متغیر قرار دارند ، جایگزین می کند. [52] یکی از مزایای میانگین تغییر بیش از حد k این است که تعداد خوشه ها از پیش مشخص نشده است ، زیرا میانگین تغییر ممکن است تنها در صورت وجود تعداد کمی از خوشه ها را پیدا کند. با این حال ، میانگین تغییر می تواند بسیار کندتر از k -means باشد ، و هنوز هم نیاز به انتخاب یک پارامتر پهنای باند دارد. میانگین تغییر دارای انواع نرم است.

تجزیه و تحلیل مؤلفه مستقل ویرایش ]

تحت فرضیات کمبود و هنگامی که داده های ورودی با انتقال سفید از قبل پردازش می شوند ، k -means راه حل برای تجزیه و تحلیل مؤلفه مستقل خطی (ICA) را تولید می کند. این کمک می کند تا در توضیح موفقیت آمیز برنامه های آموزشی k به معنای یادگیری کمک کند . [53]

فیلتر دو طرفه ویرایش ]

k -means به طور ضمنی فرض می کند که ترتیب مجموعه داده های ورودی اهمیتی ندارد. فیلتر دو طرفه شبیه k -means است و میانگین تغییر در آن است که مجموعه ای از نقاط داده را حفظ می کند که به طور تکراری با استفاده از آن جایگزین می شوند. با این حال ، فیلتر دو طرفه محاسبه معنی (وزن هسته) را شامل می شود که فقط شامل نقاطی باشد که به ترتیب داده های ورودی نزدیک هستند. [52] این امر باعث می شود تا برای مشکلاتی از قبیل نویز کردن تصویر کاربرد داشته باشد ، جایی که ترتیب مکانی پیکسلها در یک تصویر از اهمیت اساسی برخوردار است.

مشکلات مشابه ویرایش ]

مجموعه ای از مربع خطا توابع به حداقل رساندن خوشه همچنین شامل K -medoids الگوریتم، یک روش که نیروهای نقطه مرکز هر خوشه به عنوان یکی از نقاط واقعی، یعنی آن را با استفاده medoids در محل centroids .

پیاده سازی نرم افزار ویرایش ]

پیاده سازی های مختلف الگوریتم تفاوت های عملکردی را نشان می دهد ، با سریعترین مجموعه داده های آزمایشی که در 10 ثانیه به پایان رسید ، کمترین سرعت 25988 ثانیه (7 ساعت). [1] این اختلافات را می توان به کیفیت پیاده سازی ، تفاوت زبان و کامپایلر ، معیارهای مختلف خاتمه و سطح دقیق و استفاده از ایندکس برای شتاب نسبت داد.

نرم افزار رایگان / منبع باز ویرایش ]

پیاده سازی های زیر تحت مجوزهای نرم افزار منبع آزاد و آزاد با کد منبع عمومی در دسترس است.

  • Accord.NET شامل C # پیاده سازی شده برای K -means، K -means ++ و K -modes.
  • ALGLIB شامل پیاده سازی های C ++ و C # موازی برای k و معنی ها و k + معنی ها است.
  • AOSP شامل برنامه جاوا برای k -means است.
  • CrimeStat دو الگوریتم فضایی k- emans را پیاده سازی می کند که یکی از آنها به کاربر امکان می دهد مکان های شروع را تعریف کند.
  • ELKI شامل k- emans (با تکرار Lloyd و MacQueen ، همراه با آغازگرهای مختلف از جمله اولیه سازی k- emans ++) و الگوریتم های خوشه بندی پیشرفته تر است.
  • جولیا شامل K اجرای -means در بسته JuliaStats خوشه.
  • KNIME شامل گره برای K -means و K -medoids.
  • فیلبان شامل نگاشتکاهش بر اساس K -means.
  • mlpack حاوی یک اجرای C ++ از k -means است.
  • اکتاو حاوی k -means است.
  • OpenCV حاوی پیاده سازی k -means است.
  • نارنجی شامل مؤلفه ای برای خوشه بندی k- man با انتخاب خودکار نمرات k و خوشه بندی خوشه ای است.
  • PSPP حاوی k -means است ، دستور QUICK CLUSTER خوشه بندی k- значи را در مجموعه داده انجام می دهد.
  • R شامل سه تغییر در K- معنی است.
  • SciPy و scikit یادگیری حاوی چندین K پیاده سازی -means.
  • Spark MLlib یک الگوریتم توزیع شده k- emans را پیاده سازی می کند.
  • مشعل حاوی یک بسته نامشخص است که خوشه بندی k- emans را فراهم می کند .
  • Weka حاوی k -means و x-x است .

نوشتن دیدگاه

نشانی ایمیل شما منتشر نخواهد شد.

15 − 14 =