Головна » алгоритмічна торгівля » Коефіцієнт детермінації

Коефіцієнт детермінації

Що таке коефіцієнт детермінації?

Коефіцієнт детермінації - це міра, що використовується в статистичному аналізі, що оцінює, наскільки добре модель пояснює та прогнозує майбутні результати. Це вказує на рівень поясненої мінливості в наборі даних. Коефіцієнт визначення, також відомий як "R-квадрат", використовується як орієнтир для вимірювання точності моделі.

Один із способів інтерпретації цієї фігури - сказати, що змінні, включені в дану модель, пояснюють приблизно x% спостережуваної зміни. Отже, якщо R ² = 0, 50, то приблизно половину спостережуваної варіації можна пояснити моделлю.

1:58

R-квадрат

Ключові вивезення

Коефіцієнт детермінації - це складна ідея, орієнтована на статистичний аналіз майбутньої моделі даних.
Коефіцієнт детермінації використовується для пояснення того, наскільки мінливість одного фактора може бути викликана його відношенням до іншого чинника.

Розуміння коефіцієнта детермінації

Коефіцієнт детермінації використовується для пояснення того, наскільки мінливість одного фактора може бути викликана його відношенням до іншого чинника. Він в значній мірі покладається в аналізі трендів і представляється як значення між 0 і 1.

Чим ближче значення до 1, тим краща відповідність або співвідношення між двома чинниками. Коефіцієнт визначення - квадрат коефіцієнта кореляції, також відомий як "R", що дозволяє відображати ступінь лінійної кореляції між двома змінними.

Це співвідношення відоме як «доброта придатності». Значення 1, 0 вказує на ідеальну відповідність, і, таким чином, це дуже надійна модель для майбутніх прогнозів, що вказує на те, що модель пояснює всі спостерігаються зміни. Значення 0, з іншого боку, означало б, що модель взагалі не може точно моделювати дані. Для моделі з декількома змінними, такими як модель множинної регресії, скоригований R ² є кращим коефіцієнтом визначення. В економіці значення R ² вище 0, 60 вважається доцільним.

Переваги аналізу коефіцієнта детермінації

Коефіцієнт визначення - це квадрат кореляції між передбачуваними балами в наборі даних проти фактичного набору балів. Він також може бути виражений як квадрат кореляції між балами X і Y, причому X є незалежною змінною, а Y - залежною змінною.

Незалежно від представлення, R-квадрат, рівний 0, означає, що залежну змінну неможливо передбачити, використовуючи незалежну змінну. І навпаки, якщо вона дорівнює 1, це означає, що залежність змінної завжди прогнозується незалежною змінною.

Коефіцієнт детермінації, що потрапляє в цей діапазон, вимірює ступінь, коли залежна змінна прогнозується незалежною змінною. Наприклад, R-квадрат 0, 20 означає, що 20% залежної змінної прогнозується незалежною змінною.

Добрість прилягання або ступінь лінійної кореляції вимірює відстань між приталеною лінією на графіку та всіма точками даних, які розкидані навколо графіка. Об'ємний набір даних матиме лінію регресії, яка дуже близька до точок і має високий рівень прилягання, що означає, що відстань між лінією та даними дуже мала. Гарне пристосування має R-квадрат, близький до 1.

Однак R-квадрат не в змозі визначити, чи є упереджені точки даних або прогнози. Він також не повідомляє аналітику чи користувачеві, чи є коефіцієнт визначення значення хорошим чи ні. Наприклад, низький R-квадрат непоганий, і людина повинна приймати рішення, виходячи з числа R-квадрата.

Коефіцієнт визначення не слід тлумачити наївно. Наприклад, якщо R-квадрат моделі відображається на рівні 75%, дисперсія його помилок на 75% менше, ніж дисперсія залежної змінної, а стандартне відхилення її помилок на 50% менше, ніж стандартне відхилення залежної змінна. Стандартне відхилення помилок моделі становить приблизно третину розміру стандартного відхилення помилок, які ви отримаєте при моделі, що підтримує лише постійні.

Нарешті, навіть якщо значення R-квадрата велике, у моделі може не бути статистичної значущості пояснювальних змінних, або ефективний розмір цих змінних може бути дуже малим на практиці.

Порівняйте інвестиційні рахунки Ім’я постачальника Опис Розкриття рекламодавця × Пропозиції, що з’являються в цій таблиці, є партнерствами, від яких Investopedia отримує компенсацію.

Пов'язані умови

Що таке термін помилки? Термін помилки визначається як змінна в статистичній моделі, яка створюється тоді, коли модель не повністю представляє фактичну залежність між незалежними та залежними змінними. докладніше Як працює множинна лінійна регресія Множинна лінійна регресія (MLR) - це статистична методика, яка використовує кілька пояснювальних змінних для прогнозування результату змінної відповіді. більше Лінія найкращого пристосування Лінія найкращого пристосування - це результат регресійного аналізу, який представляє взаємозв'язок двох або більше змінних у наборі даних. більше R-Squared R-квадрат - це статистична міра, яка представляє частку дисперсії для залежної змінної, пояснювану незалежною змінною. докладніше Як працює метод найменших квадратів Метод найменших квадратів - це статистична методика визначення лінії, що найкраще підходить для моделі, визначена рівнянням з певними параметрами до спостережуваних даних. більше Гетероскдастичність У статистиці гетерокедастичність буває тоді, коли стандартні відхилення змінної, що відстежуються протягом певного часу, є непостійними. більше Посилання партнерів

← Інші поточні зобов'язання

Що знати про обмежені запаси →

Рекомендуємо

Залиште Свій Коментар