Виявити викиди за допомогою звичайного розподілу

Зміст:

Виявити викиди за допомогою звичайного розподілу
Виявити викиди за допомогою звичайного розподілу
Anonim

Виявлення викидів за допомогою нормального розподілу - це процес, який передбачає визначення порогового значення стандартного відхилення і за допомогою якого він призначений для знаходження крайніх значень вибірки.

Іншими словами, виявити викиди за допомогою нормального розподілу означає знайти крайні значення набору даних за допомогою стандартизованої нормальної формули.

  • Значення крайнощі називаються викиди англійською.
  • Значення внутрішній називаються інсайдери англійською.

Візуальне виявлення відхилень може бути варіантом, коли у вас дуже мало даних. При роботі з базами даних дуже недоцільно доводиться знаходити викиди вручну. Щоб вирішити цю проблему, ми можемо підрахувати, які значення вважаються крайніми, порівнявши з порогом відхилень.

У випадку нормального розподілу значення вважається екстремальним, коли воно знаходиться на 3 стандартних відхилення від середнього. Оскільки нормальний розподіл має 2 хвости, ми повинні врахувати, що його можна зменшити як з негативної, так і з позитивної сторони.

Формула для виявлення викидів за допомогою нормального розподілу

Сукупність спостережень може бути виражена попереднім способом, де x - середнє значення, при якому ці значення коливаються, а сигма - дисперсія коливань зазначених значень. Іншими словами, сигма - це відстань спостережень від середнього значення.

Мультиплікативний фактор визначає, чи є він стороннім чи інсайдером. Якщо z приймає значення 3 або -3, то, відповідно до нормального розподілу, спостереження y буде відхиленням.

Щоб знати цінність z використовуємо попереднє рівняння:

  • Якщо z> = 3 або z = <-3, то, згідно з нормальним розподілом, це можна сказати Y це екстремальна цінність або незвичне значення.
  • Якщо z <3 або z <-3, то, згідно з нормальним розподілом, ми можемо це сказати Y є внутрішньою цінністю або інсайдером.

Нормальний стандарт

Чи знайоме вище рівняння?

Точно, це вираз спостереження, яке слідує за нормальним розподілом після стандартизації або типізації. Це називається таким чином, оскільки при діленні на середнє або стандартне відхилення різниця чисельника виражається через відхилення.

З цієї причини ми можемо пов’язати значення відхилення з z і таким чином мати можливість придбати його з порогом 3 відхилення.

Приклад

Знайдіть крайні значення наступних спостережень відповідно до нормального розподілу:

Представляємо спостереження на графіку:

З самого початку ми вже бачимо, що найдальше від решти значення, швидше за все, може бути відхиленням.

Спочатку обчислюємо середнє та стандартне відхилення:

x = середнє = 5,8

сигма = стандартне відхилення = 10,51

Потім ми підставляємо значення у формулу і обчислюємо значення z для кожного спостереження:

Вищезазначені значення є мультиплікативними факторами сигми, тобто z. Все, що перевищує 3 або менше -3, буде надзвичайним значенням.

Ми бачимо, що значення z що перевищує 3 стандартні відхилення, це те, що відповідає спостереженню 49.

Отже, граничним або відхиленим значенням набору даних буде 49.