viernes, 21 de marzo de 2008

7: La selección del mejor modelo




En las secciones anteriores, hemos visto cómo podemos ajustar una serie de datos "reales" a varios tipos de fórmulas. La pregunta que nos hacemos ahora tiene que ver con la selección del mejor modelo. Si un conjunto determinado de datos puede ser modelado mediante una fórmula cuadrática, y si el mismo conjunto de datos puede ser modelado mediante una fórmula cúbica, ¿cuál de estos dos modelos será el mejor? Para responder a esta pregunta, lo primero que tenemos que hacer es poner todos los puntos en una gráfica y superimponer sobre la misma gráfica las curvas de mínimos cuadrados de cada fórmula obtenida. Esto tal vez nos puede dar suficiente información para seleccionar cierto modelo desechando el otro, aunque este método tiene la desventaja de que dada la subjetividad del mismo diferentes investigadores pueden terminar seleccionando diferentes modelos. Una cosa que nos puede ayudar mucho para la selección de cierto modelo es la teoría que hayamos construído en torno a los datos que estamos modelando. Tomemos el caso de un proyectil de corto alcance que está siendo lanzado a cierto ángulo con respecto a la vertical. Un análisis preliminar usando consideraciones teóricas de la cinética (movimiento) del proyectil nos indica que por la acción de la gravedad el proyectil irá disminuyendo su velocidad en el eje vertical, hasta alcanzar una altura máxima, después de lo cual empieza a caer hacia abajo a medida que continúa desplazándose a lo largo del eje horizontal, describiendo una curva que está perfectamente clasificada como una parábola. En tal caso, la selección del modelo a ser utilizado parecería ser el de una parábola de mínimos cuadrados.

Sin embargo, es muy posible que aunque la parábola de mínimos cuadrados parezca describir muy bien la trayectoria parabólica seguida por un proyectil, los datos experimentales que obtengamos en el campo con varios proyectiles manifiesten una discrepancia con los datos predichos por nuestros modelos obtenidos a partir de una parábola de mínimos cuadrados, en cuyo caso hay dos opciones: descartar el modelo reemplazándolo con otro, o refinar el modelo agregando términos que anteriormente no habíamos tomado en cuenta. En el caso del proyectil, un factor que obviamente puede introducir una discrepancia es la resistencia del aire, la cual retarda tanto la componente vertical de la velocidad como la componente horizontal, haciendo que el proyectil siempre caiga a tierra a una distancia menor a la distancia predicha bajo el supuesto de que la resistencia del aire es despreciable. La principal dificultad al tomar en cuenta la resistencia del aire es que hay varias opciones para escoger en la solución del problema. Una de ellas (conocida como la ley de Stokes de la resistencia) supone que la resistencia del aire al movimiento del proyectil es directamente proporcional a la velocidad del mismo, mientras que otra (conocida como la ley de Newton de la resistencia) supone que la resistencia del aire es directamente proporcional al cuadrado de la velocidad del mismo. Si nos limitamos al movimiento en un plano horizontal exclusivamente y si suponemos que la fuerza retardante es directamente proporcional a la velocidad del móvil con una constante de proporcionalidad k, entonces podemos demostrar con los recursos de la mecánica analítica que la distancia recorrida por un objeto con una velocidad inicial v0 después de transcurrido un tiempo t está dada por la fórmula:

x = [(v0)/k]∙[1 - e-kt]

Este es claramente un modelo exponencial, derivado de consideraciones meramente teóricas sin que haya aún algún dato experimental a la mano. Para valores relativamente grandes de tiempo, el término exponencial se desvanece y nos queda una expresión linear en la cual la distancia recorrida es igual a (v0)/k, lo cual podemos visualizar como una distancia máxima en virtud de que la velocidad horizontal del móvil va disminuyendo linealmente según la distancia transcurrida hasta que llega a detenerse completamente, con lo cual este tipo de movimiento no se beneficia de la ley de la inercia que nos dice que "un objeto mantiene su estado de reposo o de movimiento constante mientras no exista una fuerza externa que lo modifique".

Si el proyectil es lanzado a cierto ángulo con respecto a la horizontal en un medio resistivo, entonces tanto la componente horizontal como la componente vertical de la velocidad estarán sujetos a un retardamiento que en el caso de la componente vertical se vuelve un poco más compleja de describir matemáticamente por la presencia de la aceleración causada por la gravedad de la Tierra. Y si tratamos de combinar teóricamente ambos modelos en uno solo, el problema deja de tener solución analítica exacta. Sólo puede ser descrito ya con un modelo desarrollado experimentalmente. Esta es precisamente una de las razones por las cuales queremos llevar a cabo un ajuste de datos a una fórmula que aproxime de alguna manera el comportamiento de los datos sin que haya intención alguna de que dicha fórmula refleje de modo exacto alguna fórmula teórica que de cualquier modo tal vez sea inexistente por la naturaleza del problema.

Así pues, no siempre tenemos la fortuna de que los datos experimentales que estamos modelando puedan ser ajustados de modo exacto bajo algún concepto teórico desarrollado de antemano, porque como ya se dijo existen situaciones en las cuales hay variables fuera de nuestro control que pueden hacer que los modelos físico-matemáticos teóricamente exactos pierdan su utilidad y poder de predicción. Siendo así, y si tenemos un conjunto de datos que pueden ser "ajustados" a varios tipos de fórmulas, la pregunta regresa de nuevo: de dos o más modelos en los cuales los datos parecen tener un buen grado de "ajuste", ¿cómo podemos seleccionar el mejor modelo entre ellos con la menor subjetividad posible?

Cuando hemos llevado a cabo diversos modelajes, hay por lo menos tres criterios para decidir cuál de varios modelos matemáticos con los cuales un conjunto de datos han sido ajustados a diversas fórmulas es el mejor, hablando en términos cuantitativos y cualitativos:

1) El error estándard de la estimación (standard error of estimate)

2) El coeficiente de correlación (correlation coeficient)

3) La gráfica de la fórmula superimpuesta sobre los datos modelados

Todas las determinaciones sobre la "fortaleza" de un ajuste de datos a cierto modelo matemático invariablemente recurren a la determinación de los valores estimados (a partir de la fórmula obtenida) de Y (los cuales podemos llamar Yest) para cada uno de los valores de X utilizados en el modelaje, y la comparación de estos valores estimados a partir de la fórmula con los valores originales de Y asociados a cada valor de X. El procedimiento más expedito para evaluar la dispersión de estos datos es obtener la desviación estándard de estas comparaciones, o sea obtener la raíz cuadrada del promedio de la suma de los cuadrados de estas diferencias que proviene de la definición:



Esta medida es conocida como el error estándard de la estimación. Si fuese cero, ello indicaría un ajuste perfecto de los datos a la fórmula y viceversa; entre más grande sea el error estándard de estimación tanto mayor será la dispersión de los datos. Si dos modelos diferentes para un mismo conjunto de datos tienen un error estándard de estimación diferente, nuestra primera inclinación será irnos en favor del modelo que nos dá el menor error estándard de la estimación. Sin embargo, esta no es la única medida de interés para evaluar la bondad de un ajuste, hay otra ampliamente utilizada que es el coeficiente de correlación, el cual es un concepto estadístico que se basa en la comparación de dos desviaciones estándard: el error estándard de la estimación definido arriba y la desviación estándard de los valores de Y. Al igual que otros parámetros y definiciones de estadística que son adimensionales (no dependen del sistema de unidades de medición empleado) y que han sido normalizados de modo tal que el área bajo la curva sea igual a la unidad (como lo es el caso de la curva Gaussiana normal) o definiciones que sólo puedan tomar valores entre cero y uno, el coeficiente de correlación ha sido definido de modo tal que sólo puede tomar valores entre -1 y +1, empleándose el signo negativo cuando la correlación es una correlación negativa y el signo + cuando la correlación es una correlación positiva. Para definir el coeficiente de correlación, tenemos que definir primero lo que es la variación total de la variable independiente, la variación explicada y la variación no-explicada.

La variación total de la variable dependiente Y está definida como

Σ (Y - Y

o sea, como la suma de los cuadrados de las desviaciones de Y con respecto a la media aritmética de Y. Si no hubiese desviación alguna en ninguno de los valores de Y con respecto a la media aritmética, la variación total sería cero, algo que nunca ocurre. Si contamos ya con una fórmula ajustada a ciertos datos a partir de la cual podamos estimar el valor de Y para cualquier valor de X, podemos representar tal estimación como Yest. Hecho esto, la variación total se puede reescribir de la siguiente manera:

Σ (Y - Y)² = Σ (Y - Yest)² + Σ (Yest - Y

Esta relación la podemos derivar de la siguiente manera. Hágase

Y - Y = (Y - Yest) + (Yest - Y)

(Esto último es simplemente una igualdad matemática.)

Elevando al cuadrado ambos lados de esta relación y llevando a cabo la sumación sobre todos los valores discretos que fueron usados para la derivación de la fórmula, obtenemos:

(Y - Y)² = [(Y - Yest) + (Yest - Y)]²

(Y - Y)² = Σ (Y-Yest)² + Σ (Yest - Y)² + 2Σ (Y-Yest)(Yest - Y)

El resultado que estamos buscando se obtiene de inmediato si podemos demostrar que la última sumación es cero. Para el caso de la línea de mínimos cuadrados, la línea de regresión de Y en X, esto es precisamente lo que ocurre puesto que:

Σ (Y-Yest)(Yest - Y) = Σ (Y - a0- a1X1) ∙ (a0 + a1X - Y)

= a0Σ (Y - a0 - a1X + a1Σ X(Y - a0 - a1X) - YΣ (Y - a0 - a1X)

Pero esto último es igual a cero, porque es precisamente lo que nos dicen de ello las dos ecuaciones normales para la línea de regresión:

Σ (Y - a0 - a1X) = 0

Σ X(Y - a0 - a1X) = 0

Podemos demostrar que este resultado es igualmente válido para regresiones no-lineares tales como la parábola de mínimos cuadrados o cualquier función en la cual Yest pueda ser expandido mediante el uso de un polinomio.

Volviendo a la definición de la variación total de la variable dependiente Y:

Σ (Y - Y)² = Σ (Y - Yest)² + Σ (Yest - Y

El primer término en el lado derecho de esta ecuación es lo que definimos como la variación no-explicada, mientras que el segundo término es lo que definimos como la variación explicada; esto en virtud de que cada una de las distancias Yest-Y tienen un patrón definido en una serie de datos en los cuales hay alguna correlación, entanto que las desviaciones Y-Yest se comportan de una manera impredecible, obteniéndose resultados iguales en el caso de la variable X. Esto nos permite definir por fin el coeficiente de correlación como la razón que hay entre estas dos cantidades, o sea la razón de la variación explicada a la variación total:



o bien:



De esta definición vemos que si la variación explicada es cero, lo cual significa que la variación total es variación inexplicada, aleatoria, entonces la razón r es cero, no hay correlación alguna entre los distintos valores de Y, mientras que si la variación no-explicada es cero, entonces la variación total es variación explicada, hay correlación perfecta entre los datos, en cuyo caso la razón es igual a la unidad. La cantidad r es lo que llamamos el coeficiente de correlación. Por convención, los signos ± son usados para distinguir entre una correlación linear positiva o una correlación linear negativa. El coeficiente de correlación, como puede verse, es una cantidad adimensional, que no depende del sistema de unidades utilizado. Usando la definición del error estándard de estimación, podemos escribir la definición del coeficiente de correlación de la manera siguiente:



Esta es la fórmula que utilizamos para evaluar el coeficiente de correlación, la cual nos requiere obtener primero el error estándard de estimación de Y en X, y tras esto la desviación estándard de los valores de Y. Aunque la derivación de esta fórmula parezca algo elaborada, esta fórmula es un concepto que trabaja y produce resultados confiables, que es a fin de cuentas lo que importa.

Una vez comprendido lo que es el coeficiente de correlación, una vez entendido su origen, podemos usar la fórmula anterior que lo define sobre cada conjunto de datos en el cual hayamos llevado a cabo un modelaje, lo cual por los cálculos aritméticos involucrados puede convertirse en algo tedioso y propenso a equivocaciones cuando los datos proporcionados para el modelaje involucran cientos de datos. Afortunadamente, existe otra alternativa, y esta es el uso de alguno de muchos paquetes computacionales que pueden efectuar estos cálculos aritméticos para nosotros. En paquetes computacionales lo suficientemente sofisticados para llevar a cabo operaciones aritméticas de vectores y matrices como las que hemos estado usando en la aplicación del método matricial general, casi siempre se encuentra disponible alguna rutina para obtener tanto el error estándard de estimación como el coeficiente de correlación, para lo cual tenemos que proporcionar el conjunto original de pares de datos experimentales, y la fórmula que está siendo utilizada en el modelaje (la mayoría de los programas se encargan de evaluar el valor estimado de Yest de acuerdo con la fórmula para cada valor de X que forma parte del conjunto de datos, sin que tengamos que hacerlo nosotros).

El error estándard de estimación y el factor de correlación, por sí solos, son incapaces de darnos una guía única para ayudarnos a seleccionar el mejor modelo matemático que se ajuste a una serie de datos experimentales. Mediante el método de interpolación, podemos hacer que una curva pase exactamente por treinta puntos, lo cual requiere de un polinomio de grado 31, y sin embargo un ajuste tan exacto que no toma en cuenta para nada la posibilidad de alguna variabilidad aleatoria en la recabación de los datos no será superior a un ajuste llevado a cabo con un polinomio de grado mucho menor mediante el método de los mínimos cuadrados, ni será tan estable como este último sin la propensión a oscilar en la gráfica no solo fuera del rango de datos sino inclusive entre los mismos datos. Se vuelve a repetir, aunque parezca chocante, que el vaciado de los datos en una gráfica debe ser siempre la primera prioridad no sólo antes de llevar a cabo un ajuste de datos a una o varias fórmulas sino inclusive después de que se ha llevado a cabo tal cosa. Una gráfica, junto con el error estándard de estimación y el coeficiente de correlación, nos debe proporcionar información suficiente para inclinarnos a favor de un modelo prefiriéndolo sobre otros.

Teniendo los errores estándard de estimación, los factores de correlación, y las gráficas de los modelos superimpuestas sobre los datos, queda una pregunta pendiente de resolver: ¿y si todos los diferentes modelos usados para ajustar fórmulas distintas a un mismo conjunto de datos tienen el mismo coeficiente de correlación y parecen igualmente buenos en las gráficas, cómo seleccionamos entre todos ellos? En tal caso, lo más ventajoso es seleccionar el modelo cuya fórmula matemática sea la más sencilla posible. Esto es lo que nos haría seleccionar un modelo polinómico sobre una función racional, esto es lo que nos haría seleccionar una función racional sobre una función exponencial. Siendo todos los demás estimativos de "ajuste de datos a la fórmula" iguales, es la sencillez del modelo la que nos debe guiar en la selección de un modelo sobre varios.


PROBLEMA: En un problema puesto en una sección anterior (la sección "Un método matricial general"), se encontró que para la siguiente serie de datos:



la recta de mínimos cuadrados era la siguiente:

Y(X) = 4.008 +4.327X

Obtener el error estándard de estimación σY,X y el coeficiente de correlación r para el ajuste llevado a cabo sobre los datos por la recta de mínimos cuadrados.

El primer paso casi obligado es obtener la estimación de los valores de Y predichos de acuerdo con la fórmula obtenida con el método de los mínimos cuadrados:
Yest(1.0) = 8.335

Yest(2.0) = 12.662

Yest(3.0) = 16.989

Yest(4.0) = 21.316

Yest(5.0) = 25.643

Yest(6.0) = 29.97

Yest(7.0) = 34.297

Yest(8.0) = 38.624

Yest(9.0) = 42.951
Entonces las diferencias cuadradas serán:
[Y1 - Yest(1.0)]² = (8.36 - 8.335)² = .000625

[Y2 - Yest(2.0)]² = (11.35 - 12.662)² = 1.721344

[Y3 - Yest(3.0)]² = (16.98 - 16.989)² = .0000810

[Y4 - Yest(4.0)]² = (24.54 - 21.316)² = 10.394176

[Y5 - Yest(5.0)]² = (22.23 - 25.643)² = 11.648569

[Y6 - Yest(6.0)]² = (32.19 - 29.97)² = 4.92840

[Y7 - Yest(7.0)]² = (34.22 - 34.297)² = .005929

[Y8 - Yest(8.0)]² = (38.72 - 38.624)² = .0092160

[Y9 - Yest(9.0)]² = (42.21 - 42.951)² = .549081
con lo cual el error estándard de estimación σY,X es:

σ2Y,X = [Σ (Y - Yest)²]/N

σ2Y,X = (.000625 + 1.721344 + ... + .0092160 + .549081)/9

σ2Y,X = (29.257421)/9 = 3.25082

σY,X = 1.803

Para obtener el coeficiente de correlación, falta calcular la desviación estándard de los valores de Y, para lo cual obtenemos primero el promedio de dichos valores:

Y = (8.36 + 11.35 + 16.98 + ... + 38.72 + 42.21)/9

Y = 230.8/9 = 25.644

con lo cual las diferencias cuadradas resultan ser:
[Y1 - Y]² = (8.36 - 25.644)² = 298.736656

[Y2 - Y]² = (11.35 - 25.644)² = 204.318436

[Y3 - Y]² = (16.98 - 25.644)² = 75.064896

[Y4 - Y]² = (24.54 - 25.644)² = 1.218816

[Y5 - Y]² = (22.23 - 25.644)² = 11.655396

[Y6 - Y]² = (32.19 - 25.644)² = 42.850

[Y7 - Y]² = (34.22 - 25.644)² = 73.54778

[Y8 - Y]² = (38.72 - 25.644)² = 170.98178

[Y9 - Y]² = (42.21 - 25.644)² = 274.43236
con lo cual la desviación estándard de los datos originales Y es:

σ2Y = [Σ (Y - Y)²]/N

σ2Y = (298.736656 + 204.318436 + ... + 170.98178 + 274.43236)/9

σ2Y = 1152.80612/9 = 128.09

σY = 11.31767

Con σ2Y,X y σ2Y estamos por fin en condiciones de obtener el coeficiente de correlación de los datos:

= 1 - σ2Y,X/σ2Y

= 1 - 1.803/11.31767 = 1 - 0.1593084 = 0.840692

r = 0.91689

Antes del advenimiento de las calculadoras electrónicas de bolsillo y de los programas computacionales capaces de correr en computadoras portátiles o de escritorio, todos estos cálculos aritméticos se hacían a mano, razón por la cual los resultados eran muy propensos a las equivocaciones, y si al repetir los cálculos para verificar una respuesta se obtenía un resultado diferente, entonces había que repetir todos los cálculos aritméticos a mano una tercera e inclusive una cuarta y hasta una quinta vez. Y los cálculos se llevaban a cabo no sobre un conjunto de diez o doce datos como lo hemos venido haciendo en los problemas de esta obra, sino sobre cientos de datos. Obviamente, este tipo de trabajo podía resultar agradable únicamente para quienes casi nunca comenten equivocaciones al hacer cálculos aritméticos, lo cual no es el caso para la gran mayoría de las personas que pueden atestiguar y dar fé al hecho de que las matemáticas fueron la materia más difícil en todas sus materias desde que fueron expuestos a ella en la escuela primaria. Esta pesada y laboriosa tarea fue precisamente una de las cosas que motivó la creación de las computadoras que usamos hoy en día, porque antes de la época "dorada" de la computación, el ser analista de estadísticas o estudiante de la materia de Estadística era un asunto extremadamente penoso, y el ajuste de datos a fórmulas solía ser más fastidioso que la misma recabación de los datos a ser ajustados.


PROBLEMA: Un matemático analiza la siguiente tabla de valores que le fue proporcionada conteniendo los resultados de un experimento científico en donde X es la "variable de control" y Y es la variable dependiente:



llegando a la conclusión de que la información se puede "ajustar" ya sea a una ecuación linear del tipo Y=A+BX o a una ecuación cuadrática del tipo Y=A+BX+CX². Después de llevar a cabo un análisis estadístico, obtiene la siguiente fórmula para la línea de regresión de mínimos cuadrados de Y en X:

Y = 14.57931034 + 3.577586207X

y obtiene la siguiente fórmula para la parábola de mínimos cuadrados:

Y = 18.23781088 + 2.142880117X + 0.08966913X²

¿Cuál de las dos fórmulas es la que describe en forma más exacta los resultados del experimento?

Primero que nada, dibujamos en un diagrama los resultados del experimento:



En la gráfica se han puesto tanto los datos discretos que generaron a las fórmulas (puntos en forma de cajitas azules) como la línea de regresión de Y en X (línea negra) como la parábola de mínimos cuadrados (línea roja).

Obsérvese que tanto la línea de regresión como la parábola de mínimos cuadrados parecen proporcionar un ajuste razonablemente bueno, aunque (subjetivamente hablando) la parábola de mínimos cuadrados parece tener una ligera ventaja. Pero como en los análisis de carácter científico no caben los criterios subjetivos, llevaremos a cabo la evaluación del coeficiente de correlación para ambos casos con el fin de determinar, con números en la mano, cuál de los dos modelos de regresión es el mejor.

Para obtener el coeficiente de correlación, necesitamos entre otras cosas el promedio de los valores de Y:

Y = (21 + 30 + 41 + 54 + 70)/5

Y = 216/5 = 43.2

Habiendo obtenido el promedio de los valores observados de Y, podemos calcular la desviación estándard de dichos valores:
[Y1 - Y]² = (21 - 43.2)² = (-22.2)² = 492.84

[Y2 - Y]² = (30 - 43.2)² = (-13.2)² = 174.24

[Y3 - Y]² = (41 - 43.2)² = (-2.2)² = 4.84

[Y4 - Y]² = (54 - 43.2)² = (10.8)² = 116.64

[Y5 - Y]² = (70 - 43.2)² = (26.8)² = 718.24
La suma de las diferencias de los cuadrados es:

Variación Total (de Y) = Σ (Yi - Y)² = 1506.8

Con lo cual σY, la desviación estándard de los valores de Y, resulta ser:

σ2Y = [Σ (Yi - Y)²]/5

σ2Y = 1506.8/5

σ2Y = 301.36

σY = 17.359724

Los valores de Y predichos de acuerdo con la fórmula obtenida con la línea de regresión de Y en X son los siguientes:
Yest(1) = 18.156897

Yest(5) = 32.4672414

Yest(8) = 43.20

Yest(11) = 53.93276

Yest(15) = 68.2431
Por otro lado, los valores de Y predichos de acuerdo con la fórmula obtenida con la parábola de mínimos cuadrados son los siguientes:
Yest(1) = 20.47036

Yest(5) = 31.1939397

Yest(8) = 41.11967614

Yest(11) = 52.659457

Yest(15) = 70.556567
Trabajaremos primero con la línea de regresión, obteniendo el error estándard de estimación σY,X =, lo cual requiere evaluar las siguientes diferencias cuadradas:
[Y1 - Yest(1)]² = (21 - 18.156897)² = 8.08323467

[Y2 - Yest(5)]² = (30 - 32.4672414)² = 6.087280

[Y3 - Yest(8)]² = (41 - 43.20)² = 4.84

[Y4 - Yest(11)]² = (54 - 53.93276)² = .00452122

[Y5 - Yest(15)]² = (70 - 68.2431)² = 3.08669761
con lo cual el error estándard de estimación σY,X para la línea de regresión es:

σ2Y,X = [Σ (Y - Yest)²]/N

σ2Y,X = (8.08323467 + 6.087280 + ... + 3.08669761)/5 = 22.1017335/5

σ2Y,X = 4.4203467

σY,X = 2.102462

Entonces el coeficiente de correlación cuando usamos la línea de regresión es el siguiente:

= 1 - σ2Y,X/σ2Y

= 1 - 4.4203467/301.36 = 1 - .014667994 = 0.9853

r = 0.9926 Este es el coeficiente de correlación para la línea de regresión.

Trabajaremos ahora con la parábola de mínimos cuadrados, obteniendo el error estándard de estimación σY,X, lo cual requiere evaluar las siguientes diferencias cuadradas:
[Y1 - Yest(1)]² = (21 - 20.47036)² = .2805185

[Y2 - Yest(5)]² = (30 - 31.1939397)² = 1.425492

[Y3 - Yest(8)]² = (41 - 41.11967614)² = .01432238

[Y4 - Yest(11)]² = (54 - 52.659457)² = 1.7970555

[Y5 - Yest(15)]² = (70 - 70.556567)² = .3097668
con lo cual el error estándard de estimación σY,X para la parábola de mínimos cuadrados es:

σ2Y,X = [Σ (Y - Yest)²]/N

σ2Y,X = = (.2805185 + 1.425492 + ... + .3097668)/5 = 3.827155/5

σ2Y,X = = 0.76543103

σY,X = 0.8748892

Entonces el coeficiente de correlación cuando usamos la línea de regresión es el siguiente:

= 1 - σ2Y,X/σ2Y

= 1 - 0.76543103/301.36 = 1 - .002539922 = 0.99746

r = 0.9987 Este es el coeficiente de correlación para la parábola de mínimos cuadrados.

Puesto que el coeficiente de correlación es mayor para la parábola de mínimos cuadrados que para la línea de regresión, decidimos que la parábola de mínimos cuadrados es mejor que la línea de regresión para representar la información dada.

Nótese que es posible que una representación cúbica de mínimos cuadrados del tipo Y=A+BX+CX²+DX3 pueda dar un mejor ajuste y un coeficiente de correlación todavía mayor, aunque no hay garantía absoluta de esto dada la tendencia de los polinomios de grado creciente a oscilar violentamente fuera de los rangos de los datos que se están representando. El experimentador debe moderar su ideal de exactitud decidiendo de antemano cuál es el porcentaje de error (o la tolerancia) que puede aceptar, en virtud de que el uso de términos adicionales además de imponer una carga extra en el procesamiento de los datos ofrece el riesgo de las oscilaciones propias de los polinomios de alto grado.


PROBLEMA: En un problema puesto en una sección anterior (en la sección "Un método matricial general"), se llevaron a cabo dos ajustes diferentes para la siguiente serie de datos :



Un ajuste fue hecho con una parábola de mínimos cuadrados que resultó ser la siguiente:

Y(X) = -7.827 + 10.59X - 1.083X²

El otro ajuste fue hecho con un polinomio cúbico que resultó ser el siguiente:

Y(X) = -7.223 + 10.012X - 0.946X² - 0.009X3

¿Cuál de los dos modelos será la mejor selección?

Para la resolución de este problema, ya no se repetirán todos los pasos aritméticos intermedios detallados efectuados en la solución de los problemas anteriores, y simplemente se presentarán los resultados.

Los valores de Y predichos de acuerdo con la fórmula obtenida con la parábola de mínimos cuadrados son los siguientes:
Yest(1) = 1.68

Yest(2) = 9.021

Yest(3) = 14.196

Yest(4) = 17.205

Yest(5) = 18.048

Yest(6) = 16.725

Yest(7) = 13.236

Yest(8) = 7.581

Yest(9) = -0.24
Por otro lado, los valores de Y predichos de acuerdo con la fórmula obtenida con el ajuste hecho con un polinomio cúbico son los siguientes:
Yest(1) = 1.834

Yest(2) = 8.945

Yest(3) = 14.056

Yest(4) = 17.113

Yest(5) = 18.062

Yest(6) = 16.849

Yest(7) = 13.42

Yest(8) = 7.721

Yest(9) = -0.302
Con estos datos Yest tanto para la parábola de mínimos cuadrados y el polinomio cúbico así como los datos originales, tenemos todo lo necesario para poder efectuar la evaluación de los coeficientes de correlación para cada caso. Repitiendo la misma secuencia de pasos llevada a cabo en el problema precedente, el coeficiente de correlación para el ajuste hecho con la parábola de mínimos cuadrados resulta ser r(2)=0.992., y el coeficiente de correlación para el ajuste hecho con un polinomio cúbico resulta ser también r(3)=0.992. En ambos casos, el coeficiente de correlación es el mismo, siendo por lo tanto ambos modelos equivalentes. Pero para cualquier cálculo o manipulación matemática posterior, la fórmula modelada con el polinomio cuadrático ciertamente es más sencilla que la fórmula modelada con el polinomio cúbico. Seleccionamos entonces a la fórmula cuadrática sobre la fórmula cúbica como el mejor modelo de los dos.

Este problema demuestra el verdadero valor del coeficiente de correlación. Su utilidad, más que el empleo del mismo por sí solo como un número absoluto, radica en su empleo con fines comparativos.


PROBLEMA: En un problema puesto en una sección anterior (en la sección "Modelaje con funciones racionales"), se encontró que para la siguiente serie de datos:



una función racional ajustada a estos datos era la siguiente:



Sin la ayuda de paquete computacional alguno y recurriendo a las definiciones básicas, obtener el coeficiente de correlación para el ajuste llevado a cabo sobre los datos con esta función racional.

Al igual que en el problema anterior, empezamos por obtener la estimación de los valores de Y predichos de acuerdo con la fórmula racional obtenida con el método de los mínimos cuadrados con la ayuda del método matricial:
Yest(.1) = 0.953

Yest(.2) = 0.909

Yest(.5) = 0.801

Yest(1.0) = 0.672

Yest(1.2) = 0.632

Yest(1.5) = 0.582

Yest(2.0) = 0.514

Yest(3.0) = 0.42

Yest(4.0) = 0.357

Yest(6.0) = 0.276
Entonces las diferencias cuadradas de los valores estimados según la fórmula contra los datos originales serán:
[Y1 - Yest(.1)]² = (.9524 - .953)² = (-6 ∙ 10-4)² = 3.6 ∙ 10-7

[Y2 - Yest(.2)]² = (.9092 - .909)² = (2 ∙ 10-4)² = 4 ∙ 10-8

[Y3 - Yest(.5)]² = (.8013 - .801)² = (3 ∙ 10-4)² = 9 ∙ 10-8

[Y4 - Yest(1.0)]² = (.6720 - .672)² = 0

[Y5 - Yest(1.2)]² = (.6322 - .632)² = (2 ∙ 10-4)² = 4 ∙ 10-8

[Y6 - Yest(1.5)]² = (.5815 - .582)² = (-5 ∙ 10-4)² = 2.5 ∙ 10-7

[Y7 - Yest(2.0)]² = (.5142 - .514)² = (2 ∙ 10-4)² = 4 ∙ 10-8

[Y8 - Yest(3.0)]² = (.4201 - .42)² = (1 ∙ 10-4)² = 1 ∙ 10-8

[Y9 - Yest(4.0)]² = (.3566 - .357)² = (-4 ∙ 10-4)² = 1.6 ∙ 10-7

[Y10 - Yest(4.0)]² = (.2755 - .276)² = (-5 ∙ 10-4)² = 2.5 ∙ 10-7
con lo cual el error estándard de estimación es:

σ2Y,X = [Σ (Y - Yest)²]/N

σ2Y,X = 1.24 ∙10-6/10

σ2Y,X = 1.24 ∙ 10-7

σY,X = 0.011

Para obtener el coeficiente de correlación, falta estimar la desviación estándard de los valores de Y, para lo cual obtenemos primero el promedio de dichos valores:

Y = (.9524 + .9092 + .8013 + ... + .3566 + .2755)/10

Y = 6.115/10 = 0.6115

con lo cual las diferencias cuadradas resultan ser:
[Y1 - Y]² = (.9524 - .6115)² = (.341)² = .116281

[Y2 - Y]² = (.9092 - .6115)² = (.298)² = .088804

[Y3 - Y]² = (.8013 - .6115)² = (.19)² = .0361

[Y4 - Y]² = (.6720 - .6115)² = (.06)² = .0036

[Y5 - Y]² = (.6322 - .6115)² = (.021)² = .000441

[Y6 - Y]² = (.5815 - .6115)² = (-.03)² = .0009

[Y7 - Y]² = (.5142 - .6115)² = (.097)² = .009409

[Y8 - Y]² = (.4201 - .6115)² = (-.191)² = .036481

[Y9 - Y]² = (.3566 - .6115)² = (-.255)² = .065025

[Y10 - Y]² = (.2755 - .6115)² = (-.336)² = .112896
con lo cual la desviación estándard de los datos originales Y es:

σ2Y = [Σ (Y - Y)²]/N

σ2Y = 0.47/10

σ2Y = .047

σY = 0.217

Con σ2Y,X y σ2Y estamos por fin en condiciones de obtener el coeficiente de correlación de los datos:
= 1 - σ2Y,X/σ2Y

= 1 - 1.24 ∙ 10-7/.047

r = 0.99999868

El índice de correlación de 0.99999868, bastante cercano a la unidad, nos confirma lo que vemos en la gráfica de los datos superimpuesta sobre la curva trazada por la función racional ajustada: el ajuste es excelente.


PROBLEMA: En el primer problema puesto en la sección de "Introducción" de esta obra se llevó a cabo un ajuste de los siguientes rangos de calificaciones de un grupo de 160 estudiantes a una curva Gaussiana:
Entre 4.5 y 5.0: 4 estudiantes
Entre 5.0 y 5.5: 7 estudiantes
Entre 5.5 y 6.0: 11 estudiantes
Entre 6.0 y 6.5: 16 estudiantes
Entre 6.5 y 7.0: 29 estudiantes
Entre 7.0 y 7.5: 34 estudiantes
Entre 7.5 y 8.0: 26 estudiantes
Entre 8.0 y 8.5: 15 estudiantes
Entre 8.5 y 9.0: 11 estudiantes
Entre 9.0 y 9.5: 5 estudiantes
Entre 9.5 y 10.0: 2 estudiantes
obteniéndose la siguiente fórmula ajustando la curva Gaussiana ideal a estos datos:



Obtener el coeficiente de correlación para esta curva.

Empezamos por obtener los valores de Y predichos de acuerdo con la fórmula Gaussiana obtenida para los puntos medios de cada intervalo. Estos valores son:
Yest(4.75) = 2.431

Yest(5.25) = 6.442

Yest(5.75) = 13.65

Yest(6.25) = 23.126

Yest(6.75) = 31.324

Yest(7.25) = 33.921

Yest(7.75) = 29.369

Yest(8.25) = 20.329

Yest(8.75) = 11.251

Yest(9.25) = 4.978

Yest(9.75) = 1.761
A continuación tenemos la gráfica de la curva Gaussiana a partir de la fórmula ajustada junto con los datos Yest en cada punto Xi obtenidos de la misma fórmula, datos que serán comparados con los datos originales:



Entonces las diferencias cuadradas serán:
[Y1 - Yest(4.75)]² = (4 - 2.431)² = 2.46176

[Y2 - Yest(5.25)]² = (7 - 6.442)² = .31136

[Y3 - Yest(5.75)]² = (11 - 13.65)² = 7.0225

[Y4 - Yest(6.25)]² = (16 - 23.126)² = 50.77988

[Y5 - Yest(6.75)]² = (29 - 31.324)² = 5.40098

[Y6 - Yest(7.25)]² = (34 - 33.921)² = .00624

[Y7 - Yest(7.75)]² = (26 - 29.369)² = 11.35016

[Y8 - Yest(8.25)]² = (15 - 20.329)² = 28.39824

[Y9 - Yest(8.75)]² = (11 - 11.251)² = .063

[Y10 - Yest(9.25)]² = (5 - 4.978)² = .00048

[Y11 - Yest(9.75)]² = (2 - 1.761)² = .05712
con lo cual el error estándard de estimación σY,X es:

σ2Y,X = [Σ (Y - Yest)²]/N

σ2Y,X = (2.46176 + .31136 + 7.0225 + ... + .00048 + .05712)/11

σ2Y,X = 105.85172/11 = 9.62288

σY,X = 3.102

Para obtener el coeficiente de correlación, falta calcular la desviación estándard de los valores de Y, para lo cual obtenemos primero el promedio de dichos valores:

Y = (4 + 7 + 11 + 16 + 29 +34 +26 +15 + 11 + 5 + 2)/11

Y = 160/11 = 14.54545

con lo cual las diferencias cuadradas resultan ser:
[Y1 - Y]² = (4 - 14.54545)² = 111.20652

[Y2 - Y]² = (7 - 14.54545)² = 56.93382

[Y3 - Y]² = (11 - 14.54545)² = 12.57022

[Y4 - Y]² = (16 - 14.54545)² = 2.11572

[Y5 - Y]² = (29 - 14.54545)² = 208.93402

[Y6 - Y]² = (34 - 14.54545)² = 378.47952

[Y7 - Y]² = (26 - 14.54545)² = 131.20672

[Y8 - Y]² = (15 - 14.54545)² = 0.20662

[Y9 - Y]² = (11 - 14.54545)² = 12.57022

[Y10 - Y]² = (5 - 14.54545)² = 91.11562

[Y11 - Y]² = (2 - 14.54545)² = 157.38832
con lo cual la desviación estándard de los datos originales Y es:

σ2Y = [Σ (Y - Y)²]/N

σ2Y = (111.20652 + 56.93382 + 12.57022 + ... + 157.38832)/11

σ2Y = 1162.72732/11 = 105.70248

σY = 10.281

Con σ2Y,X y σ2Y estamos por fin en condiciones de obtener el coeficiente de correlación de los datos:

= 1 - σ2Y,X/σ2Y

= 1 - 9.62288/105.70248

r = 0.95339