در این پست خواهید خواند:

    خوشه‌بندی (Clustering) که برخی منابع به آن کلاسترینگ می‌گویند از الگوریتم‌های قطعه‌بندی است. خوشه‌بندی اطلاعاتی که ویژگی‌های نزدیک به هم و گاهی اوقات یکسان دارند را در دسته‌های جداگانه قرار می‌دهد. این‌کار با هدف مدیریت ساده داده‌ها انجام می‌شود تا مدل‌های هوشمند بتوانند اطلاعات مختلف را از یکدیگر تشخیص دهند. هنگامی که با یک مجموعه کوچک از صفات روبرو هستیم، دسته‌بندی کار ساده‌ای است. به‌طور مثال، اگر مجموعه‌ای متشکل از خودکارهای آبی، مشکی، قرمز و سبز داشته باشیم، امکان طبقه‌بندی آن‌ها به 4 گروه وجود دارد، اما اگر در همین مجموعه ویژگی‌های دیگری مثل اندازه، شرکت سازنده، وزن، قیمت و سایر خصلت‌ها وجود داشته باشد، کار کمی پیچیده می‌شود. حال فرض کنید در یک مجموعه متشکل از هزاران رکورد و صدها ویژگی قصد دسته‌بندی داریم، برای دسته‌بندی درست باید از چه راهکاری استفاده کنیم؟

    خوشه‌بندی چیست؟

    بخش‌بندی که اصطلاح کامل‌تر و دقیق‌تر آن تحلیل خوشه‌بندی (Cluster Analysis)  است به فرآیندی اشاره دارد که با استفاده از آن می‌توان مجموعه‌ای از اشیا را به گروه‌های مجزا از یکدیگر تخصیص داد. اعضا هر خوشه بر مبنای ویژگی‌هایی که دارند به یکدیگر شباهت دارند و در مقابل میزان شباهت بین خوشه‌ها کم است. خوشه‌بندی با هدف برچسب‌گذاری اشیا انجام می‌شود تا امکان شناسایی اشیایی که عضو گروه‌های مختلف هستند با سهولت انجام شود. در این روش داده‌ها به گروه‌های معناداری تقسیم می‌شوند که محتویات هر خوشه ویژگی‌های مشابه، اما متفاوت از سایر اشیایی دارد که در گروه‌های دیگر قرار گرفته‌اند. از مکانیزم خوشه‌بندی در مجموعه داده‌های بزرگ و در مواردی که تعداد خصلت‌های داده‌ای زیاد باشد استفاده می‌شود.


    همان‌گونه که اشاره شد در فرآیند خوشه‌بندی، گروه‌بندی مجموعه‌ای از اشیاء بر مبنای ویژگی‌های مشابه انجام می‌شود و این الگوریتم‌های داده‌کاوی اکتشافی هستند که از روش‌های معمول تجزیه و تحلیل آماری برای دسترسی به اشیا استفاده می‌کنند. اصلی‌ترین تفاوت تحلیل خوشه‌بندی و تحلیل طبقه‌بندی نبود برچسب‌های اولیه برای مشاهدات است. در خوشه‌بندی بر اساس ویژگی‌های مشترک و روش‌های اندازه‌گیری فاصله یا شباهت بین اشیا برچسب‌هایی به‌طور خودکار تخصیص داده شود، در حالی که در طبقه‌بندی برچسب‌های اولیه وجود دارد و باید از الگوریتم‌های پیشگویانه برای برچسب‌گذاری مشاهدات جدید استفاده کرد. در داده‌کاوی، نتیجه گروه‌ها مورد توجه هست و در طبقه‌بندی خودکار، قدرت تشخیصی مورد توجه است. با توجه به روش‌های مختلف اندازه‌گیری شباهت‌ها یا الگوریتم‌های تشکیل خوشه، این احتمال وجود دارد که نتایج خوشه‌بندی برای مجموعه داده‌های ثابث متفاوت باشد.

    اصطلاحات خوشه‌ها شامل گروه‌هایی با فاصله‌های کم بین اعضای خوشه، مناطق متراکم فضای داده، فواصل یا توزیع‌های آماری خاص است. بنابراین خوشه بندی می‌تواند به عنوان یک مسئله بهینه‌سازی چند هدفه انجام شود. الگوریتم خوشه‌بندی مناسب و تنظیمات پارامتری (مثل تابع بردار فاصله، آستانه تراکم یا تعداد خوشه مورد انتظار) بستگی به تنظیم مجموعه داده‌ها توسط فرد و استفاده خاص از نتایج دارد. تجزیه و تحلیل خوشه‌ای یک روش خودکار نیست، بلکه یک فرآیند تکراری از کشف دانش یا بهینه‌سازی چند هدفه تعاملی است که مبتنی بر آزمون و خطا است. در بیشتر موارد باید داده‌های پیش پردازش شده و پارامترهای مدل اصلاح شوند تا نتیجه دلخواه به‌دست آید.

    به سختی می‌توان تعریف دقیق و روشنی برای مفهوم خوشه ارائه کرد، یکی از دلایلش این است که الگوریتم‌های خوشه‌بندی زیادی وجود دارد، با این‌حال، همه آن‌ها یک وجه اشتراک دارند که حداقل دارای یک گروه از اشیاء داده‌ای هستند. پژوهشگران از مدل‌های مختلف خوشه استفاده می‌کنند و برای هر یک از این مدل‌های خوشه، الگوریتم‌های مختلفی را طراحی کرده‌اند.

    مدل‌های خوشه‌بندی

    درست است که بیشتر الگوریتم و روش‌های خوشه‌بندی ساختار یکسانی دارند، با این‌حال، تفاوت‌هایی در شیوه اندازه‌گیری شباهت یا فاصله و انتخاب برچسب برای اشیا هر خوشه در این روش‌ها وجود دارد. بر همین اساسی طبقه‌بندی آن‌ها دید بهتری از روش خوشه‌بندی استفاده شده در الگوریتم‌ها ارائه می‌کند. به‌طور کلی، الگوریتم‌های خوشه‌بندی را می‌توان به 4 گروه اصلی الگوریتم‌های خوشه‌بندی تفکیکی، سلسله مراتب، مبتنی بر چگالی و مبتنی بر مدل تقسیم کرد که البته برخی منابع مدل‌های بیشتری به شرح زیر را ارائه می‌کنند.

    مدل‌های متصل: به عنوان مثال، خوشه‌بندی سلسله مراتبی، مدل‌هایی براساس فاصله متصل را ایجاد می‌کند.

    مدل‌های مرکزی: به عنوان مثال، الگوریتم k-means، هر خوشه را با یک بردار متوسط نشان می‌دهد.

    مدل‌های توزیع: خوشه‌ها با استفاده از توزیع‌های آماری، مانند توزیع نرمال چند متغیره که در الگوریتم حداکثر انتظار، استفاده شده‌است.

    مدل‌های تراکم: به عنوان مثال، DBSCAN و OPTICS خوشه را به عنوان مناطق متراکم متصل در فضای داده تعریف می‌کنند.

    مدل‌های زیر فضایی: به عنوان خوشه مشترک یا خوشه‌ای دو حالت شناخته می‌شود. خوشه‌ها با هر دو اعضای خوشه و ویژگی‌های مرتبط مدل‌سازی می‌شوند.

    مدل‌های گروهی: برخی از الگوریتم‌ها یک مدل تصحیح شده برای نتایج خود را ارائه نمی‌دهند و فقط اطلاعات گروه‌بندی را ارائه می‌دهند.

    مدل‌های مبتنی بر گراف: یک کلاس، یعنی یک زیر مجموعه از گره‌ها در یک گراف به طوری که هر دو گره در زیر مجموعه با یک لبه متصل می‌شود که می‌تواند به عنوان یک شکل اولیه از خوشه مورد توجه قرار گیرد.

    مدل‌های عصبی: شبکه عصبی غیرقابل نظارت، شناخته شده‌ترین نقشه خود سازمانی است و معمولاً این مدل‌ها می‌توانند به عنوان مشابه با یک یا چند مدل فوق شامل مدل‌های زیر فضایی، زمانی که شبکه‌های عصبی یک فرم تجزیه و تحلیل مؤلفه اصلی یا مستقل تجزیه و تحلیل المان می‌باشد.

    خوشه بندی اساساً مجموعه‌ای از خوشه‌ها است که معمولاً شامل تمام اشیاء در مجموعه داده‌ها می‌شود. افزون‌بر این، می‌توان رابطهٔ خوشه‌ها را به یکدیگر تعریف کند، به عنوان مثال، سلسله مراتب خوشه‌های تعبیه شده در یکدیگر.

    طبقه‌بندی خوشه‌بندی بر مبنای سختی

    خوشه‌بندی را می‌توان براساس سختی تمایز به صورت زیر مشخص کرد:

    خوشه‌بندی سخت: هر شیء متعلق به خوشه است یا نه.

    خوشه‌بندی نرم (همچنین: خوشه فازی): هر شیء به درجه خاصی از هر خوشه متعلق است (به عنوان مثال، احتمال وابستگی به خوشه)

    خوشه‌بندی جداسازی دقیق ( پارتیشن بندی): هر شیء دقیقا به یک خوشه متعلق است.

    خوشه‌بندی جداسازی دقیق با ناپیوستگی: اشیاء می‌توانند به هیچ خوشه‌ای تعلق نداشته باشند.

    خوشه‌بندی همپوشانی (همچنین: خوشه‌بندی جایگزین، خوشه‌بندی چندگانه): اشیاء ممکن است متعلق به بیش از یک خوشه باشد؛ معمولاً خوشه‌های سخت را شامل می‌شود

    خوشه‌بندی سلسله مراتبی: اشیایی که متعلق به خوشه فرزند هستند، متعلق به خوشه پدر و مادر هم هستند.

    خوشه‌بندی زیر فضا: در حالی که خوشه‌بندی همپوشانی، که در یک زیر فضای منحصر به فرد تعریف شده، انتظار نمی‌رود که خوشه‌ها با همپوشانی داشته باشند.

    بهترین الگوریتم خوشه‌بندی برای یک مسئله خاص، اغلب باید به صورت تجربی انتخاب شود، مگر اینکه یک دلیل ریاضی برای ترجیح دادن یک مدل خوشه بر دیگری وجود داشته باشد. لازم به ذکر است که یک الگوریتم که برای یک نوع مدل طراحی شده‌است و در یک مجموعه داده‌ای که شامل تفاوت اساسی مدل است، شکست می‌خورد. به عنوان مثال، k-means نمیتواند خوشه‌های غیرمحدب را پیدا کند.

    خوشه‌بندی سلسه مراتبی

    خوشه‌بندی براساس اتصال، که به عنوان خوشه‌بندی سلسله مراتبی شناخته می‌شود، بر مبنای ایده اصلی اشیائی است که بیشتر مربوط به اشیای نزدیک، نسبت به اشیاء دورتر است. این الگوریتم‌ها اشیا را برای ایجاد خوشه‌ها بر اساس فاصله آن‌ها متصل می‌کنند. خوشه را می‌توان به طورکلی با حداکثر فاصله مورد نیاز برای اتصال قطعات خوشه توصیف کرد. در فاصله‌های مختلف، خوشه‌های متفاوتی شکل می‌گیرند که می‌تواند با استفاده از یک دندروگرام نشان داده شود، که توضیح می‌دهد که نام معمول «خوشه‌بندی سلسله مراتبی» از آن می‌آید: این الگوریتم‌ها یک پارتیشن بندی مجموعه داده را ارائه نمی‌دهند، بلکه یک سلسله مراتب گسترده‌ای از خوشه‌هایی که در فاصله‌های معینی با یکدیگر ادغام می‌شوند، ارائه می‌دهد. خوشه‌بندی سلسله مراتبی شامل دو نوع خوشه‌بندی می‌باشد:

    single linkage -1 این روش که به روش Bottom-Up و Agglomerative نیز معروف است روشی است که در آن ابتدا هر داده به عنوان یک خوشه در نظر گرفته می‌شود. در ادامه با به کارگیری یک الگوریتم هر بار خوشه‌های دارای ویژگی‌های نزدیک به هم با یکدیگر ادغام شده و این کار ادامه می‌یابد تا به چند خوشهٔ مجزا برسیم. مشکل این روش حساس بودن به نویز و مصرف زیاد حافظه می‌باشد.

    complete linkage -2 در این روش که به روش Top-Down و Divisive نیز معروف است ابتدا تمام داده‌ها به عنوان یک خوشه در نظر گرفته شده و با به کارگیری یک الگوریتم تکرار شونده هربار داده‌ای که کمترین شباهت را با داده‌های دیگر دارد به خوشه‌های مجزا تقسیم می‌شود. این کار ادامه می‌یابد تا یک یا چند خوشه یک عضوی ایجاد شود. مشکل نویز در این روش برطرف شده‌است.


    بردیا
    نویسنده

    سلام، بردیا هستم و بیشتر از 10 سال هست که در زمینه فناوری اطلاعات فعال هستم

    ثبت یک نظر

    آدرس ایمیل شما منتشر نخواهد شد. فیلدهای الزامی مشخص شده اند *

    0 نظر ثبت شده

    اینستاگرام