Кластерний аналіз - що це таке, визначення та поняття

Кластерний аналіз - це сукупність багатовимірних статистичних методів, які мають на меті згрупувати набір випадків або осіб у кластери або кластери.

Отже, кластерний аналіз є видом статистичного групування. Мета полягає в тому, щоб зробити дані у кожному кластері максимально схожими один на одного і максимально різними по відношенню до інших груп. Це також можна зробити зі змінними.

Перетворення даних при кластерному аналізі

Однією з проблем, з якою ми стикаємось при групуванні даних, є те, що дані іноді знаходяться в різних одиницях виміру. З цієї причини необхідно виконати етап попереднього кластерного аналізу, який дозволяє кластеризацію.

Найпоширенішим методом є стандартизація. Це використовується для перетворення даних таким чином, щоб вони мали подібні одиниці виміру. Потрібно взяти до уваги два правила, двійкові змінні не стандартизовані і, якщо вони категоричні, вони стають двійковими (наявність / відсутність).

Методи кластерного аналізу

Існує багато методів для проведення кластерного аналізу, але на Economy-Wiki.com, дотримуючись принципу простоти, який нас характеризує, ми побачимо найбільш релевантні схематично.

Ієрархічні методи

Перша класифікація - це ієрархічні або неієрархічні методи. Колишні об’єднують людей у ​​ієрархічні фази (звідси їх назва). Таким чином, лише один об’єкт одночасно змінює групу, решта залишаються на тому ж місці.

Вони, в свою чергу, класифікуються на:

Агломеративні методи

Він складається з групування особин у меншу групу кожного разу. Він починається з ряду груп, рівного кількості випадків, і зменшується.

Найвідоміші:

  • Метод найближчого сусіда: У цьому випадку ви використовуєте алгоритм для групування даних. Ви шукаєте мінімальну відстань між найближчими людьми. Він дуже чутливий до даних, які можуть спричинити так званий "шум". Метод найвіддаленішого сусіда подібний.
  • Середній метод між групами: Що він робить, це обчислює середнє значення відстані між особами групи та однією з них зокрема. Дуже корисно зменшити так званий «шум».
  • Метод Уорда: Для цього потрібно додати квадрати відхилень між кожним індивідом та середнім значенням його кластера, щоб уникнути втрати інформації. Це один з найбільш відомих і має переваги методу, заснованого на середньому значенні, але більшої сили дискримінації.

Дисоціативні методи

У цьому випадку те, що ви робите, це ділити. Він починається з одного кластера, і підрозділи пропонуються на основі ряду вимог.

Найпоширенішими є:

  • Метод середнього, найближчого сусіда та найдальшого сусіда між групами: Ці три методи подібні до попереднього випадку, але з використанням дисоціативного методу. Тобто цього разу те, що ми робимо, є окремим, а не груповим.
  • Метод центроїд: Він широко використовується в задачах оптимізації розташування об'єкта. Використовуйте цей тип аналізу, щоб знайти найбільш підходящі.

Неієрархічні методи

У цьому випадку вони починають з попередньо встановленого рішення. Це відправна точка для кластерного аналізу. Таким чином, групи створюються заздалегідь, і кожен випадок буде поміщений в одну з них, залежно від її характеристик. У свою чергу, ми можемо розділити їх на інші підгрупи.

  • Методи перепризначення: Найбільш доречними є центроїдні методи, такі як k-середні. Такі з медіоїдів, як PAM. Або динамічних хмар.
  • Прямі методи: Найголовніше - це кластерна кластеризація, яка широко використовується при видобутку даних.
  • Редукційні методи: Вони засновані на факторному аналізі.
  • Методи пошуку за щільністю: З одного боку, існують типологічні підходи, такі як модальний аналіз. З іншого боку, ми маємо ймовірнісні, як у Вовка.

Приклади кластерного аналізу

Подивимось, нарешті, кілька прикладів програм кластерного аналізу.

  • Уявімо, що у нас є група країн, яку ми хочемо об’єднати на основі певних макроекономічних змінних, таких як інфляція чи безробіття. Ми можемо використовувати цей тип аналізу для створення однорідних груп, наприклад, більш-менш розвинених країн.
  • Іншим прикладом може бути серія споживачів з певними соціально-демографічними характеристиками. Ідея полягає в тому, щоб створити групи зі схожими людьми, які, в свою чергу, сильно відрізняються один від одного.
  • Але крім економіки, кластерний аналіз корисний і в інших науках. Наприклад, у біології, щоб класифікувати види, або в геології, зробити те саме з мінералами.

Ви допоможете розвитку сайту, поділившись сторінкою з друзями

wave wave wave wave wave