Інформаційний критерій Байєса або критерій Шварца - метод, який фокусується на сумі квадратів залишків, щоб знайти кількість відсталих періодів стор що мінімізують цю модель.
Іншими словами, ми хочемо знайти мінімальну кількість відсталих періодів, які ми включаємо в авторегресію, щоб допомогти нам з прогнозуванням залежної змінної.
Таким чином, ми матимемо контроль над кількістю відсталих періодів стор що ми включаємо в регресію. Коли ми перевищимо цей оптимальний рівень, модель Шварца перестане зменшуватися, і, отже, ми досягли мінімуму. Тобто ми досягли кількості відсталих періодів стор що мінімізують модель Шварца.
Його також називають інформаційним критерієм Байєса (BIC).
Рекомендовані статті: авторегресія, сума квадратів залишків (SCE).
Формула інформаційного критерію Байєса
Хоча на перший погляд це здається складною формулою, ми пройдемося по частинах, щоб зрозуміти її. Перш за все, загалом ми маємо:
- Логарифми обох факторів формули представляють граничний ефект включення відсталого періоду стор більше в саморегресії.
- N - загальна кількість спостережень.
- Ми можемо розділити формулу на дві частини: ліву частину та праву частину.
Частина зліва:
Представляє суму квадратів залишків (SCE) авторегресіїстор відсталі періоди, поділені на загальну кількість спостережень (N).
Для оцінки коефіцієнтів ми використовуємо звичайні найменші квадрати (OLS). Отже, коли ми включаємо нові відсталі періоди, SCE (p) можна лише підтримувати або зменшувати.
Потім збільшення періоду авторегресії, що відстає, спричиняє:
- SCE (p): зменшується або залишається постійним.
- Коефіцієнт детермінації: збільшується.
- ЗАГАЛЬНИЙ ЕФЕКТ: збільшення у відсталому періоді спричиняє зменшення лівої частини формули.
Тепер права частина:
(p + 1) представляє загальну кількість коефіцієнтів в авторегресії, тобто регресорів з їх відсталими періодами (стор) та перехоплення (1).
Потім збільшення періоду авторегресії, що відстає, спричиняє:
- (p + 1): збільшується, оскільки ми враховуємо відсталий період.
- ЗАГАЛЬНИЙ ЕФЕКТ: збільшення у відсталому періоді спричиняє збільшення правої частини формули.
Практичний приклад
Ми припускаємо, що хочемо зробити прогноз щодо цін налижні абонементи для наступного сезону 2020 року з 5-річною вибіркою, але ми не знаємо, скільки періодів відставання використовувати: AR (2) чи AR (3)?
- Ми завантажуємо дані та обчислюємо натуральні логарифми цін на лижні абонементи.
1. Оцінюємо коефіцієнти за допомогою OLS і отримуємо:
Сума квадратів залишків (SCE) для AR (2) = 0,011753112
Коефіцієнт детермінації для AR (2) = 0,085
2. Ми додаємо ще 1 відсталий період, щоб побачити, як змінюється SCE:
Сума квадратів залишків для AR (3) = 0,006805295
Коефіцієнт визначення для AR (3) = 0,47
Ми бачимо, що коли ми додаємо відсталий період в авторегресії, коефіцієнт детермінації зростає, а SCE зменшується в цьому випадку.
- Ми розраховуємо баєсівський інформаційний критерій:
Чим менша модель BIC, тим краща модель. Тоді AR (3) буде найкращою моделлю щодо AR (2), враховуючи, що його коефіцієнт детермінації вищий, SCE нижчий і модель Шварца або байєсівський інформаційний критерій також нижчий.