Відхилення - це ненормальне та екстремальне спостереження у статистичній вибірці чи часових рядах даних, яке потенційно може вплинути на оцінку його параметрів.
Більш простими словами, відхиленням буде спостереження в межах вибірки або часовий ряд даних, який не узгоджується з іншими. Уявіть, наприклад, що ми вимірюємо зріст учнів у класі.
Уявімо собі вибірку з 10 учнів. Висота кожного з них така:
Зразок 1 | |
Студент | Висота в метрах |
1 | 1,65 |
2 | 1,80 |
3 | 1,72 |
4 | 1,68 |
5 | 1,75 |
6 | 1,85 |
7 | 1,62 |
8 | 1,79 |
9 | 1,82 |
10 | 1,69 |
Середній зріст класу склав би 1,73. Якщо взяти до уваги максимальну висоту (1,85) та мінімальну висоту (1,62) та відстань між ними до середнього, ми бачимо, що вона становить 0,113 та 0,117 відповідно. Як бачимо, середнє значення знаходиться приблизно в середині інтервалу, і це можна вважати досить хорошою оцінкою.
Ефект відхилення
А тепер давайте подумаємо про ще одну вибірку з 10 учнів, їх висота така:
Зразок 1 | |
Студент | Висота в метрах |
1 | 1,65 |
2 | 1,80 |
3 | 1,72 |
4 | 1,68 |
5 | 2,18 |
6 | 2,20 |
7 | 1,62 |
8 | 1,79 |
9 | 1,75 |
10 | 1,69 |
У цьому випадку середній зріст класу склав би 1,81. Якщо ми зараз подивимось на максимальну висоту (2,20) та мінімальну висоту (1,62) та відстань між ними до середнього, ми бачимо, що вона становить 0,39 та 0,18 відповідно. У цьому випадку середнє значення більше не знаходиться приблизно в середині діапазону.
Ефект двох найбільш екстремальних спостережень (2.18 та 2.20) спричинив зсув середнього арифметичного у бік максимального значення розподілу.
На цьому прикладі ми бачимо ефект, який мають викиди та як вони можуть спотворити обчислення середнього значення.
Як виявити викиди?Як виправити ефект викидів
У таких ситуаціях, коли є ненормальні значення, які суттєво відрізняються від решти, медіана є кращою оцінкою, щоб знати, в якому моменті зосереджено більшу кількість спостережень.
У випадку обох розподілів і оскільки ми маємо парну кількість значень, ми не можемо взяти саме значення, яке зменшує розподіл вдвічі для обчислення медіани. За допомогою якого, впорядкувавши значення від найнижчого до найвищого, ми взяли б п’яте та шосте спостереження (обидва залишають по 4 спостереження з кожної сторони), і ми обчислили медіану наступним чином:
Зразок 1:
1,75+1,72/2 = 1,73
Зразок 2:
1,79+1,71/2 = 1,75
Як ми бачимо, у зразку № 1, враховуючи те, що немає відхилень або ненормальних спостережень, медіана становить 1,73 і збігається із середнім значенням. Навпаки, для вибірки 2 середнє значення становить 1,75. Як ми бачимо, це значення знаходиться далі від середньої висоти, яка становила 1,81, і дає нам більш високу оцінку точки точності, щоб приблизно знати, в якій точці зосереджено більшу кількість спостережень.
Оцінка балів