Коефіцієнт детермінації (R у квадраті)

Коефіцієнт детермінації - це частка загальної дисперсії змінної, що пояснюється регресією. Коефіцієнт детермінації, який також називають квадратом R, відображає придатність моделі до змінної, яку вона має намір пояснити.

Важливо знати, що результат коефіцієнта детермінації коливається між 0 і 1. Чим ближче його значення до 1, тим більша відповідність моделі змінній, яку ми намагаємось пояснити. І навпаки, чим ближче до нуля, тим менш жорсткою буде модель і, отже, менш надійною вона буде.

У попередньому виразі ми маємо дріб. Отже, розберемося по частинах. Спочатку ми проаналізуємо чисельник, тобто верхню частину.

Тим, хто не знає вираження дисперсії, рекомендую прочитати статтю про це. Для тих, хто це знає, вони можуть зрозуміти, що це вираження дисперсії, але з двома принциповими відмінностями.

Перша відмінність полягає в тому, що Y має циркумфлекс або те, що вчителі дидактично називають «капелюхом». Що докладно про цей капелюх, так це те, що Y - це оцінка моделі того, що згідно з пояснювальними змінними коштує Y, але це не реальне значення Y, а оцінка Y.

По-друге, потрібно було б поділити на Т. Що, в інших випадках, зазначається як N або кількість спостережень. Однак, оскільки формула знаменника теж містила б його, ми видаляємо знаменники (знизу) з обох формул, щоб спростити вираз. Таким чином з ним легше працювати.

Далі ми проведемо той самий аналіз із знаменною частиною (нижня частина).

У цьому випадку єдиною відмінністю від вихідної формули дисперсії є відсутність її знаменника. Тобто, ми не ділимо на T або N. Таким чином, як тільки будуть пояснені дві частини загального виразу квадрата R або коефіцієнта детермінації, ми побачимо приклад.

Коефіцієнт варіаціїКоефіцієнт лінійної кореляціїРегресійний аналіз

Інтерпретація коефіцієнта детермінації

Припустимо, ми хочемо пояснити кількість голів, які забиває Кріштіану Роналду, виходячи з кількості проведених ігор. Ми припускаємо, що чим більше зіграних ігор, тим більше голів він заб'є. Дані стосуються останніх 8 сезонів. Таким чином, після вилучення даних модель дає таку оцінку:

Як ми бачимо з графіка, взаємозв'язок позитивний. Чим більше ігор проведено, звичайно, тим більше голів він заб’є в сезоні. На основі розрахунку коефіцієнта R-квадрата припасування дорівнює 0,835. Це означає, що це модель, оцінки якої досить добре підходять до реальної змінної. Хоча технічно це було б неправильно, ми могли б сказати щось подібне, що модель пояснює 83,5% реальної змінної.

Коефіцієнт детермінаційної задачі

Проблема коефіцієнта детермінації та причини, через яку виникає скоригований коефіцієнт детермінації, полягає в тому, що він не карає включення незначущих пояснювальних змінних. Тобто, якщо до моделі додати п’ять пояснювальних змінних, які мало стосуються цілей, які Кріштіану Роналду забиває за сезон, R-квадрат збільшиться. Ось чому багато економетричних, статистичних та математичних експертів виступають проти використання R у квадраті як репрезентативного мірила реальної придатності.

Відкоригований коефіцієнт детермінації

Скоригований коефіцієнт детермінації (скоригований R у квадраті) - це міра, що визначає відсоток, що пояснюється дисперсією регресії щодо дисперсії пояснюваної змінної. Тобто те саме, що R у квадраті, але з різницею: скоригований коефіцієнт детермінації карає включення змінних.

Як ми вже говорили раніше, коефіцієнт детермінації моделі збільшується, навіть якщо змінні, які ми включаємо, не мають значення. Оскільки це проблема, щоб спробувати її вирішити, скоригований квадрат R такий, що:

У формулі N - обсяг вибірки, а k - кількість пояснювальних змінних. Шляхом математичного вирахування, чим більші значення k, тим далі відрегульований R-квадрат буде від нормального R-квадрата. І навпаки, при менших значеннях k, чим ближче центральна частка буде до 1, а отже, скоригований R у квадраті та нормальний R у квадраті будуть більш подібними.

Пам'ятаючи, що k - кількість пояснювальних змінних, ми робимо висновок, що це не може бути нулем. Якби воно було нульовим, не було б моделі. Принаймні, нам доведеться пояснити одну змінну з точки зору іншої змінної. Оскільки k має бути щонайменше 1, скоригований R-квадрат і нормальний R-квадрат не можуть мати однакові значення. Крім того, відрегульований R-квадрат завжди буде меншим за звичайний R-квадрат.

Популярні Пости

Дев'ять іспанських компаній, прихильних до зміни клімату

Дев'ять іспанських компаній досягли найкращих результатів за свої зусилля у боротьбі зі зміною клімату. Дослідження, проведене Проектом розкриття вуглецю, збирає інформацію про ризики, можливості та політику, що використовуються у боротьбі зі зміною клімату. Серед цих компаній, що мають велику екологічну прихильність, є: Red Eléctrica, Acciona, Bankia, CaixaBank, Детальніше…

Це Різдво відбудеться із зайнятістю та споживанням як подарунок на кінець року в Іспанії

Великі компанії розширять свою пропозицію роботи більш ніж на 22 000 пропозицій, щоб задовольнити велике споживання, яке очікується на наступний Різдвяний сезон. Поліпшення внутрішнього споживання та ділового бізнесу означає, що наступне Різдво буде завантажене робочими місцями та можливостями для всіх підприємств. Як і кожного року, читайте далі…

Франція стикається з дефіцитом масла

Вершкового масла не вистачає, що змушує його ціни стрімко зростати. Дефіцит впливає не лише на Францію, оскільки інші європейські країни, США та Австралія також зазнають наслідків. Таке зростання цін, що у вересні тонна вершкового масла становила 7000 євро. Читати далі…

Марта Фліх: "Економіка - це наука, яка передбачає апостеріор".

Якби мені потрібно було визначити нашого співрозмовника, я б використав такі прикметники: розумний, безтурботний, креативний та різнобічний. Мова йде про актрису, режисера та економіста Марту Фліх, жінку, для якої немає виклику, який може їй протистояти. Марта має ступінь економіста в Університеті Валенсії та ступінь магістра міжнародної торгівлі…