Статистична вибірка - це підмножина даних, що належить до сукупності даних. Статистично кажучи, воно повинно складатися з певної кількості спостережень, які адекватно відображають загальні дані.
Статистика як галузь математики відповідає за збір даних, упорядкування та аналіз їх. Іншими словами, коли ми хочемо вивчити певне явище, ми звертаємось до статистики. Хорошим прикладом явища, яке вивчає статистика, є середня заробітна плата громадян країни
У цьому сенсі з міркувань часу та витрат ми не можемо зібрати всі дані. Ця сукупність даних називається сукупністю даних або просто популяцією.
Чому ви працюєте зі статистичними вибірками?
Щоб пояснити, чому використовується статистична вибірка замість загальної сукупності, ми вдамось до наведеного вище прикладу.
Припустимо, ми хочемо вивчити будь-яке явище. У нашому випадку цим явищем є середня заробітна плата громадян тієї чи іншої країни. Сукупність даних складається з кожного працівника в країні. Звичайно, з міркувань часу та витрат неможливо було б запитати кожного працівника, яка його річна зарплата. Це зайняло б багато часу, або нам знадобилося б багато ресурсів.
На цьому етапі з'являється поняття статистичної вибірки. Замість того, щоб запитувати мільйони робітників у країні чи регіоні, ми збираємо лише невелику кількість даних. Наприклад, ми запитали 100 000 людей. Це завдання все ще складне, але запитати 100 000 людей набагато доступніше, ніж 30 мільйонів.
Цей невеликий обсяг даних повинен бути репрезентативним. Тобто він повинен адекватно представляти населення. Якщо 100 000 людей, про яких ми просили, зосереджені в багатих кварталах, ми отримаємо дані, які не є репрезентативними. Середня зарплата була б набагато вищою, ніж є насправді.
Характеристика репрезентативної статистичної вибірки
Якщо ви хочете провести хороші дослідження, якість статистичної вибірки має важливе значення. Марно проводити найскладніші статистичні показники з найскладнішими моделями, якщо статистична вибірка упереджена. Тобто, якщо вибірка не є репрезентативною.
При отриманні репрезентативної вибірки існують певні аспекти, які дослідник повинен знати заздалегідь. Серед цих аспектів є характеристики репрезентативної вибірки. Характеристики репрезентативної вибірки такі:
- Досить великий розмір: Коли ми працюємо з вибірками, ми зазвичай працюємо з кількістю даних, меншою за сукупність. Однак, щоб статистична вибірка була репрезентативною, вона повинна бути достатньо великою, щоб вважатись репрезентативною. Наприклад, якщо наше населення складається з 10 мільйонів даних, і ми вибираємо 10, йому важко бути репрезентативним. Звичайно, чим більша вибірка не завжди є більш репрезентативною.
- Випадковість: Відбір даних зі статистичної вибірки повинен бути випадковим. Тобто воно повинно бути абсолютно випадковим. Якщо замість того, щоб робити це випадковим чином, ми виконуємо запланований процес відбору даних, ми вводимо упередження до збору даних. Тому, щоб уникнути упередженості вибірки і, отже, щоб зробити її репрезентативною, ми повинні зробити випадковий вибір.
Статистичний висновок
Отримавши репрезентативну вибірку, необхідно зробити певні показники. Часто нам цікаво знати певну міру змінної. У початковому прикладі змінною буде заробітна плата громадян країни. У цьому сенсі метрикою, яку ми хочемо проаналізувати, є середня заробітна плата громадян країни.
Іншими словами, ми маємо сукупність даних, що складається з усіх робітників у Мексиці. З цієї сукупності ми отримуємо змінну, тобто річну зарплату. Використовуючи відповідні методики, ми отримуємо репрезентативну вибірку. І нарешті, як тільки у нас є набір даних, з яким ми можемо працювати, ми використовуємо методи статистичного висновку для обчислення середньої заробітної плати.
Звичайно, як тільки ми отримаємо набір даних, ми можемо зробити висновок про інші заходи. Наприклад, як розподіляється заробітна плата, який відсоток працівників нижче певної зарплати або наскільки велика різниця в зарплаті.
Приклад статистичного зразка
Припустимо, ми хочемо провести дослідження середніх витрат колумбійських сімей у січні. Для цього у нас є два варіанти:
- Введіть банківські рахунки всіх сімей в Колумбії
- Запитайте представницьку кількість людей
Перший варіант не життєздатний з кількох причин. По-перше, що сім'ї не збираються відмовлятися від своїх даних, а по-друге, що ми також не могли їздити сім'єю по сім'ї, переглядаючи дані. В основному тому, що населення Колумбії близько 50 мільйонів. Тим часом, другий - це варіант збору статистичної вибірки.
Що ми будемо робити, дотримуючись вищезазначених характеристик, - це запитати 100 000 сімей. Це дещо складно, але набагато простіше, ніж запитати 50 мільйонів колумбійців. Різниця значна. Таким чином, виходячи із вибірки у 100 000 сімей, ми спробуємо розрахувати середні витрати сімей у січні.
Вилучені дані будуть більш-менш надійними згідно з низкою метрик, які враховуються при статистичних дослідженнях. Звичайно, ці типи метрик є більш досконалими, і тому ми не будемо їх тут обговорювати.