Проба Колмогорова - Смирнов (K-S)

Зміст:

Проба Колмогорова - Смирнов (K-S)
Проба Колмогорова - Смирнов (K-S)
Anonim

Тест Колмогорова-Смірнова (K-S) - це непараметричний тест, який має на меті визначити, чи відповідає частота двох різних наборів даних однаковому розподілу навколо їх середнього значення.

Іншими словами, тест Колмогорова-Смірнова (K-S) - це тест, який пристосовується до форми даних і використовується для перевірки того, чи дві різні вибірки мають однаковий розподіл.

Чому це непараметричний тест?

Краса “непараметричної” характеристики полягає в тому, що вона відповідає даним і, отже, розподілам, які можуть слідувати за частотою даних. Крім того, ця функція позбавляє нас від необхідності припускати апріорі за яким розподілом слід зразок.

Важливість тесту K-S

Скільки разів нам давали дві вибірки та обчислювали коефіцієнт кореляції Пірсона, не думаючи двічі? Іншими словами, якщо ми хочемо бачити лінійну залежність між двома наборами даних, було б справедливо розрахувати кореляцію, так?

Цей висновок був би вірним, якщо розподіли двох зразків слідують нормальному розподілу. Коефіцієнт кореляції припускає, що розподіли нормальні, якщо пропустити це припущення, результат коефіцієнта кореляції помилковий. Для тестів гіпотез та довірчих інтервалів ми також припускаємо, що популяція розподіляється за допомогою нормального розподілу.

Як і всі тести гіпотез, що включають статистику, важливо мати великий обсяг даних, щоб мати статистично значущі результати. Ми можемо помилково відкинути нульову гіпотезу, оскільки вибірка мала. Крім того, також важливо, щоб у цій вибірці були деякі крайні випадки (викиди, англійською мовою) для забезпечення послідовності результатів тесту.

Процедура випробування

Процедура наступних кроків.

Гіпотеза

Першим кроком буде перевірка, чи мають обидва зразки однаковий розподіл. Для цього ми проводимо перевірку гіпотези, припускаючи, що обидві вибірки мають однаковий розподіл проти альтернативної гіпотези, що вони різні.

Статистичні

Ми працюємо з кумулятивними функціями розподілу двох зразків, F1(x) та F2(х):

Без паніки! Ми спокійно аналізуємо наведену вище формулу:

  • Важливою частиною формули є знак різниці (-). Ми шукаємо вертикальні відмінності у розподілах. Отже, ми віднімемо обидві кумулятивні функції розподілу.
  • оператор "макс". Ми зацікавлені знайти найбільшу або максимальну різницю, щоб побачити, наскільки різними можуть бути два розподіли.
  • абсолютна величина. Ми використовуємо абсолютне значення, щоб порядок операторів не міняв результат. Іншими словами, неважливо, який F (x) має негативний знак:

Критичне значення

Для великих зразків існує наближення до критичного значення для K-S, яке залежить від рівня значущості (%):

Де1 та н2 - розмір вибірки для вибірки F1(x) та F2(x) відповідно.

Деякі розраховані критичні значення:

Правило відхилення

Додаток

Дуже часто ми хочемо перевірити, чи два розподіли досить відрізняються один від одного, коли ми хочемо створити сценарії прогнозування (ми працюємо з двома вибірками) або коли ми хочемо оцінити, який розподіл найкраще відповідає даним (ми працюємо лише з одним зразком).