Коефіцієнт детермінації (R у квадраті)

Зміст:

Коефіцієнт детермінації (R у квадраті)
Коефіцієнт детермінації (R у квадраті)
Anonim

Коефіцієнт детермінації - це частка загальної дисперсії змінної, що пояснюється регресією. Коефіцієнт детермінації, який також називають квадратом R, відображає придатність моделі до змінної, яку вона має намір пояснити.

Важливо знати, що результат коефіцієнта детермінації коливається між 0 і 1. Чим ближче його значення до 1, тим більша відповідність моделі змінній, яку ми намагаємось пояснити. І навпаки, чим ближче до нуля, тим менш жорсткою буде модель і, отже, менш надійною вона буде.

У попередньому виразі ми маємо дріб. Отже, розберемося по частинах. Спочатку ми проаналізуємо чисельник, тобто верхню частину.

Тим, хто не знає вираження дисперсії, рекомендую прочитати статтю про це. Для тих, хто це знає, вони можуть зрозуміти, що це вираження дисперсії, але з двома принциповими відмінностями.

Перша відмінність полягає в тому, що Y має циркумфлекс або те, що вчителі дидактично називають «капелюхом». Що докладно про цей капелюх, так це те, що Y - це оцінка моделі того, що згідно з пояснювальними змінними коштує Y, але це не реальне значення Y, а оцінка Y.

По-друге, потрібно було б поділити на Т. Що, в інших випадках, зазначається як N або кількість спостережень. Однак, оскільки формула знаменника теж містила б його, ми видаляємо знаменники (знизу) з обох формул, щоб спростити вираз. Таким чином з ним легше працювати.

Далі ми проведемо той самий аналіз із знаменною частиною (нижня частина).

У цьому випадку єдиною відмінністю від вихідної формули дисперсії є відсутність її знаменника. Тобто, ми не ділимо на T або N. Таким чином, як тільки будуть пояснені дві частини загального виразу квадрата R або коефіцієнта детермінації, ми побачимо приклад.

Коефіцієнт варіаціїКоефіцієнт лінійної кореляціїРегресійний аналіз

Інтерпретація коефіцієнта детермінації

Припустимо, ми хочемо пояснити кількість голів, які забиває Кріштіану Роналду, виходячи з кількості проведених ігор. Ми припускаємо, що чим більше зіграних ігор, тим більше голів він заб'є. Дані стосуються останніх 8 сезонів. Таким чином, після вилучення даних модель дає таку оцінку:

Як ми бачимо з графіка, взаємозв'язок позитивний. Чим більше ігор проведено, звичайно, тим більше голів він заб’є в сезоні. На основі розрахунку коефіцієнта R-квадрата припасування дорівнює 0,835. Це означає, що це модель, оцінки якої досить добре підходять до реальної змінної. Хоча технічно це було б неправильно, ми могли б сказати щось подібне, що модель пояснює 83,5% реальної змінної.

Коефіцієнт детермінаційної задачі

Проблема коефіцієнта детермінації та причини, через яку виникає скоригований коефіцієнт детермінації, полягає в тому, що він не карає включення незначущих пояснювальних змінних. Тобто, якщо до моделі додати п’ять пояснювальних змінних, які мало стосуються цілей, які Кріштіану Роналду забиває за сезон, R-квадрат збільшиться. Ось чому багато економетричних, статистичних та математичних експертів виступають проти використання R у квадраті як репрезентативного мірила реальної придатності.

Відкоригований коефіцієнт детермінації

Скоригований коефіцієнт детермінації (скоригований R у квадраті) - це міра, що визначає відсоток, що пояснюється дисперсією регресії щодо дисперсії пояснюваної змінної. Тобто те саме, що R у квадраті, але з різницею: скоригований коефіцієнт детермінації карає включення змінних.

Як ми вже говорили раніше, коефіцієнт детермінації моделі збільшується, навіть якщо змінні, які ми включаємо, не мають значення. Оскільки це проблема, щоб спробувати її вирішити, скоригований квадрат R такий, що:

У формулі N - обсяг вибірки, а k - кількість пояснювальних змінних. Шляхом математичного вирахування, чим більші значення k, тим далі відрегульований R-квадрат буде від нормального R-квадрата. І навпаки, при менших значеннях k, чим ближче центральна частка буде до 1, а отже, скоригований R у квадраті та нормальний R у квадраті будуть більш подібними.

Пам'ятаючи, що k - кількість пояснювальних змінних, ми робимо висновок, що це не може бути нулем. Якби воно було нульовим, не було б моделі. Принаймні, нам доведеться пояснити одну змінну з точки зору іншої змінної. Оскільки k має бути щонайменше 1, скоригований R-квадрат і нормальний R-квадрат не можуть мати однакові значення. Крім того, відрегульований R-квадрат завжди буде меншим за звичайний R-квадрат.