Definición de R Cuadrado (Coeficiente de determinación) – Definición, qué es y concepto | Diccionario Economico
El R Cuadrado, también conocido como coeficiente de determinación, es una medida estadística que indica el grado de ajuste de un modelo de regresión a los datos observados. Se calcula comparando la variabilidad explicada por el modelo con la variabilidad total de los datos. Su valor oscila entre 0 y 1, y cuanto más cercano a 1, mayor es la capacidad del modelo para explicar la variabilidad de los datos.
Es importante saber que el resultado del coeficiente de determinación fluctúa entre 0 y 1. Cuanto más se acerca su valor a 1, más se ajusta el modelo a la variable que tratamos de explicar. Por el contrario, cuanto más cerca esté de cero, menos ajustado será el modelo y, por lo tanto, menos fiable.
En la expresión anterior, tenemos una fracción. Así que vamos poco a poco. Primero, analicemos el numerador, es decir, la parte superior.
Para aquellos que no están familiarizados con la expresión de la varianza, recomiendo leer el artículo al respecto. Los que saben esto pueden entender que se trata de una expresión de varianza, pero con dos diferencias fundamentales.
La primera diferencia es que Y tiene un acento circunflejo o lo que los profesores llaman didácticamente un «sombrero». Este sombrerito detalla que este Y es la estimación del modelo de lo que valen las variables independientes Y, pero no es el valor real de Y, sino una estimación de Y.
En segundo lugar, habría que dividir por T, que de otro modo se denota como N o el número de observaciones. Sin embargo, dado que la fórmula del denominador también lo contendrá, eliminaremos los denominadores (abajo) de ambas fórmulas para simplificar la expresión. Entonces es más fácil trabajar con él.
A continuación, vamos a hacer el mismo análisis con la parte del denominador (parte inferior).
En este caso, la única diferencia existente con la fórmula de dispersión original es la ausencia de su denominador. Es decir, no dividimos por T ni por N. Así, después de explicar las dos partes de la expresión general del cuadrado de R o del coeficiente de determinación, veremos un ejemplo.
Coeficiente de variación Coeficiente de correlación lineal Análisis de regresión
Interpretación del coeficiente de determinación
Supongamos que queremos explicar el número de goles marcados por Cristiano Ronaldo por el número de partidos que ha jugado. Suponemos que cuantos más partidos juegue, más goles marcará. Los datos se refieren a las últimas 8 temporadas. Así, después de extraer los datos, el modelo da la siguiente estimación:
Como podemos ver en el gráfico, la dependencia es positiva. Cuantos más partidos juegue, más goles marcará en la temporada, por supuesto. El ajuste basado en el cálculo de R cuadrado es 0,835. Esto quiere decir que es un modelo cuyas estimaciones se ajustan bastante bien a la variable real. Aunque técnicamente estaría mal, podríamos decir que el modelo explica el 83,5% de la variable real.
El problema del coeficiente de determinación
El problema del coeficiente de determinación, y la razón por la que surge el coeficiente de determinación ajustado, es que no penaliza la inclusión de variables explicativas irrelevantes. Es decir, si se añaden al modelo cinco variables explicativas que poco tienen que ver con los goles marcados por Cristiano Ronaldo en una temporada, la R-cuadrada aumentará. Por esta razón, muchos econometristas, estadísticos y matemáticos experimentados se oponen al uso de R-cuadrado como medida representativa de la calidad real de un ajuste.
Coeficiente de determinación ajustado
El coeficiente de determinación ajustado (R ajustado al cuadrado) es una medida del porcentaje atribuible a la varianza de la regresión en relación con la varianza de la variable que se explica. Es decir, lo mismo que R-cuadrado, pero con una diferencia: el coeficiente de determinación ajustado penaliza la inclusión de variables.
Como dijimos anteriormente, el coeficiente de determinación del modelo aumenta incluso si las variables que incluimos no son relevantes. Como esto es un problema, para intentar solucionarlo, la R cuadrada ajustada es tal que:
En la fórmula, N es el tamaño de la muestra y k es el número de variables explicativas. Por derivación matemática, cuanto más altos sean los valores de k, más lejos estará el R-cuadrado ajustado del R-cuadrado normal. Por el contrario, para valores más pequeños de k, más cerca estará la fracción central de 1 y, por lo tanto, más similares serán la R-cuadrada ajustada y la R-cuadrada normal.
Recordando que k es el número de variables explicativas, concluimos que no puede ser cero. Si fuera cero, no habría modelo. Como mínimo, tendremos que explicar una variable en términos de otra variable. Debido a que k debe ser al menos 1, el R-cuadrado ajustado y el R-cuadrado normal no pueden tener el mismo valor. Además, el R-cuadrado ajustado siempre será más pequeño que el R-cuadrado normal.
¿Problemas o dudas? Te ayudamos
Si quieres estar al día, suscríbete a nuestra newsletter y síguenos en Instagram. Si quieres recibir soporte para cualquier duda o problema, no dude en ponerse en contacto con nosotros en info@wikieconomia.org
Deja una respuesta