Виявити викиди за допомогою звичайного розподілу

Виявлення викидів за допомогою нормального розподілу - це процес, який передбачає визначення порогового значення стандартного відхилення і за допомогою якого він призначений для знаходження крайніх значень вибірки.

Іншими словами, виявити викиди за допомогою нормального розподілу означає знайти крайні значення набору даних за допомогою стандартизованої нормальної формули.

  • Значення крайнощі називаються викиди англійською.
  • Значення внутрішній називаються інсайдери англійською.

Візуальне виявлення відхилень може бути варіантом, коли у вас дуже мало даних. При роботі з базами даних дуже недоцільно доводиться знаходити викиди вручну. Щоб вирішити цю проблему, ми можемо підрахувати, які значення вважаються крайніми, порівнявши з порогом відхилень.

У випадку нормального розподілу значення вважається екстремальним, коли воно знаходиться на 3 стандартних відхилення від середнього. Оскільки нормальний розподіл має 2 хвости, ми повинні врахувати, що його можна зменшити як з негативної, так і з позитивної сторони.

Формула для виявлення викидів за допомогою нормального розподілу

Сукупність спостережень може бути виражена попереднім способом, де x - середнє значення, при якому ці значення коливаються, а сигма - дисперсія коливань зазначених значень. Іншими словами, сигма - це відстань спостережень від середнього значення.

Мультиплікативний фактор визначає, чи є він стороннім чи інсайдером. Якщо z приймає значення 3 або -3, то, відповідно до нормального розподілу, спостереження y буде відхиленням.

Щоб знати цінність z використовуємо попереднє рівняння:

  • Якщо z> = 3 або z = <-3, то, згідно з нормальним розподілом, це можна сказати Y це екстремальна цінність або незвичне значення.
  • Якщо z <3 або z <-3, то, згідно з нормальним розподілом, ми можемо це сказати Y є внутрішньою цінністю або інсайдером.

Нормальний стандарт

Чи знайоме вище рівняння?

Точно, це вираз спостереження, яке слідує за нормальним розподілом після стандартизації або типізації. Це називається таким чином, оскільки при діленні на середнє або стандартне відхилення різниця чисельника виражається через відхилення.

З цієї причини ми можемо пов’язати значення відхилення з z і таким чином мати можливість придбати його з порогом 3 відхилення.

Приклад

Знайдіть крайні значення наступних спостережень відповідно до нормального розподілу:

Представляємо спостереження на графіку:

З самого початку ми вже бачимо, що найдальше від решти значення, швидше за все, може бути відхиленням.

Спочатку обчислюємо середнє та стандартне відхилення:

x = середнє = 5,8

сигма = стандартне відхилення = 10,51

Потім ми підставляємо значення у формулу і обчислюємо значення z для кожного спостереження:

Вищезазначені значення є мультиплікативними факторами сигми, тобто z. Все, що перевищує 3 або менше -3, буде надзвичайним значенням.

Ми бачимо, що значення z що перевищує 3 стандартні відхилення, це те, що відповідає спостереженню 49.

Отже, граничним або відхиленим значенням набору даних буде 49.

Популярні Пости

Гейміфікація - що це таке, визначення та поняття

✅ Гейміфікація | Що це таке, значення, поняття та визначення. Повне резюме. Гейміфікація, гейміфікація або грайливість використовуються для позначення використовуваної техніки або стратегії ...…

COVID-19: Кінець виробництва в Китаї?

Є багато міркувань, які слід зробити після кризи, пов’язаної з коронавірусом. Серед них слід враховувати залежність від Китаю як "світової фабрики" та великого світового постачальника. Чи відбудеться промислове переселення після пандемії? Багато разів Китай називали "світовою фабрикою". Все це було обумовлено широким Детальніше…

Робота на телерекламі може призвести до наступного великого соціального прогресу

Виникнення вірусу COVID-19 змусило нас усіх обмежитися власними будинками, не залишивши нам іншого вибору, окрім як перетворити будинок кожного на офіс. Робота на дистанційному режимі залишилася? Вже було багато голосів, які роками стверджували, що офіси починають бути необхідним елементом і що вони мало просятьБільш…