domingo, 30 de marzo de 2008

1: Introducción




Este trabajo está motivado por la necesidad de hacer accesible con ejemplos prácticos una serie de tópicos que deberían formar parte obligatoria del plan de estudios de cualquier individuo que esté cursando una carrera universitaria en las ciencias y las ingenierías y que, desafortunadamente, no forma parte de las materias impartidas en muchas universidades en las cuales si se menciona algo del tema tal vez ello ocurra al final de los cursos introductorios de la materia de Estadística, y ello si queda tiempo para hablar del tema después de consumir la mayor parte del tiempo introduciendo al estudiante a la teoría de las probabilidades, la distribución hipergeométrica, la distribución binomial, la distribución normal, la distribución-t, el análisis de la varianza más lo que se alcance a ver después de tratar estos temas, lo cual deja poco tiempo para enseñarle al alumno esto que quizá debería ser lo primero que debería aprender por las vastas aplicaciones que esto tiene en diversas ramas del saber humano.

Empezaremos con una pregunta muy práctica:

Si no estamos cursando una Licenciatura en Matemáticas, ¿cuál sería la razón para dedicarle parte de nuestro tiempo a una materia que esencialmente es parte de una rama de las Matemáticas, la Estadística? ¿Cuál sería la razón por la cual deberíamos de estar motivados a aumentar aún más nuestra ya de por sí pesada carga de estudios con algo como el ajuste de datos a fórmulas?

Para responder a esta pregunta, veremos primero que el estudio de las técnicas matemáticas usadas para "ajustar" datos obtenidos experimentalmente a fórmulas prefijadas es la base indispensable para poder "avalar" nuestros modelos científicos teóricos con lo que se observa en la práctica todos los días en los laboratorios. Tomemos como ejemplo de ello la ley de la gravitación universal enunciada por vez primera por Sir Isaac Newton, la cual nos dice que dos cuerpos de masas M1 y M2 se atraen:



con una fuerza Fg que va en razón directa del producto de sus masas y en razón inversa del cuadrado de la distancia d que separa
sus centros, lo cual está resumido en la siguiente fórmula:




Este concepto es tan elemental y tan importante, que incluso no se requiere llegar hasta la universidad para ser introducido a él, forma parte de los cursos básicos de ciencias naturales en las escuelas secundaria y preparatoria. Sin usar aún números, comparativamente hablando las consecuencias de ésta fórmula podemos resumirlas con los siguientes ejemplos:



En la esquina superior izquierda tenemos dos masas iguales cuyos centros geométricos están separados una distancia d, las cuales se están atrayendo con una fuerza F. En el segundo renglón y en la misma columna, ambas masas M son el doble del valor original, y por lo tanto la fuerza de atracción entre dichas masas será cuatro veces mayor, o sea 4F, ya que la fuerza de atracción es directamente proporcional al producto de las masas. Y en el tercer renglón sólo una de las masas es aumentada, a tres veces de su valor original, con lo cual la fuerza de atracción será tres veces mayor, aumentando a 3F. En la columna de la derecha, las masas son separadas a una distancia 2d que es el doble de la distancia original, y por lo tanto la fuerza de atracción entre ellas cae no a la mitad sino a la cuarta parte de su valor original porque la fuerza de atracción varía en razón inversa no de la distancia sino del cuadrado de la distancia que separa a las masas. Y en el tercer renglón en la columna de la derecha la fuerza de atracción entre las masas aumenta al cuádruple al ser acercadas las masas a la mitad de la distancia original. Y como podemos ver en la esquina inferior derecha, si ambas masas son aumentadas al doble y si la distancia que separa sus centros geométricos también es aumentada al doble, la fuerza de atracción entre las mismas no cambiará.

Hasta aquí hemos estado hablando en términos meramente cualitativos. Si queremos hablar en términos cuantitativos, usando números, entonces hay algo que necesitamos para poder utilizar la fórmula dada por Newton. Tenemos que determinar el valor de G, la constante de gravitación universal. En tanto que no podamos hacer tal cosa, no iremos muy lejos para poder usar dicha fórmula para predecir los movimientos de los planetas alrededor del Sol o el movimiento de la Luna alrededor de la Tierra. Y esta constante G no es algo que pueda ser determinado teóricamente, queramos o no tenemos que ir al laboratorio para llevar a cabo algún tipo de experimento con el cual podamos obtener el valor de G, el cual resulta ser:



Pero la determinación de esta constante marca apenas el inicio de nuestra labor. Podemos suponer que esta fórmula fue determinada bajo ciertas condiciones de laboratorio en las cuales había dos masas conocidas separadas por una distancia medida con la mayor precisión posible. El exponente 10-11 que aparece en el valor numérico de la constante G nos dice en cierta forma que el efecto a ser medido es extremadamente pequeño, lo cual es de esperarse, porque dos masas pequeñas del tamaño de una canica usadas para el experimento se atraerán con una fuerza muy débil apenas casi detectable. La existencia de una fuerza de atracción entre dos masas pequeñas se puede confirmar en un experimento de complejidad mediana, ello no presenta grandes desafíos. Pero el medir la constante G y no sólo comprobar que dos cuerpos se atraen representa serias dificultades. El primero en evaluar la constante G en el laboratorio fue Cavendish, quien usó un aparato que era esencialmente una balanza de torsión implementando el siguente esquema:




Aunque a primera vista se piense en la posibilidad de aumentar todas las masas usadas en el experimento para hacer más intenso el efecto atractivo que hay entre ellas, tal cosa no se puede llevar a cabo en las masas móviles (de color rojo) sin que se reviente el fino hilo del cual cuelgan dichas masas. Se pueden, sin embargo, aumentar las masas de color azul, y esto fue precisamente lo que hizo Cavendish. Obsérvese que no son sólo dos masas atrayéndose sino dos pares de masas atrayéndose, lo cual aumenta el efecto en la balanza de torsión. De cualquier modo, las enormes dificultades para obtener un valor numérico confiable de G bajo este experimento no contribuyen a aumentar nuestra confianza en el valor de G así obtenido.

De cualquier modo, un valor de G obtenido bajo estas condiciones y metido en la fórmula no nos garantiza que la fórmula va a trabajar como lo predijo Newton para otras condiciones que sean muy diferentes a las condiciones utilizadas en el laboratorio, en donde intervienen masas y distancias mucho mayores. Esta fórmula no es la única que nos puede dar una fuerza de atracción entre dos masas que disminuye a medida que aumenta la distancia de separación entre los centros geométricos de las masas. Podemos formular una ley que diga: "dos cuerpos se atraen en razón directa del producto de sus masas y en razón inversa de la distancia que los separa". Obsérvese la ausencia de la expresión "cuadrado de las distancia que los separa". Y podemos hacer que ambas fórmulas coincidan numéricamente para cierta distancia de separación, pero la variación en la fuerza de atracción dada por ambas fórmulas se irá haciendo cada vez más y más notorio conforme las masas van siendo acercadas o separadas más y más. Como ambas fórmulas, matemáticamente distintas, no pueden ser igualmente válidas para la descripción del mismo fenómeno, una de ellas tiene que ser desechada con la ayuda de datos obtenidos experimentalmente. Nuevamente, tenemos que ir al laboratorio. La confirmación de que la ley de Newton es válida la podemos obtener si podemos medir la fuerza de atracción para varias distancias haciendo una gráfica de los resultados. Para una variación inversamente proporcional al cuadrado de la distancia, la gráfica debe ser como sigue:



De un modo u otro, son experimentos de laboratorio los que nos ayudan a confirmar o desechar cualquier teoría como esta. Y en experimentos difíciles por su propia naturaleza, en los cuales se introduce un error aleatorio estadístico que nos puede introducir una variación experimental en cada lectura que tomemos, nos vemos casi obligados a recabar la mayor cantidad posible de datos para poder aumentar la confiabilidad de los resultados, en cuyo caso el problema será tratar de sacar alguna conclusión del cúmulo de datos recabados, porque no se puede esperar que todos o tal vez ninguno de los datos van a "caer" suavemente y en forma exacta sobre una curva continua. Esto nos obliga a tratar de encontrar de alguna manera la expresión matemática de una curva suave y continua, entre muchas otras posibles, que mejor se ajuste a los datos experimentales.

El caso del que hemos hablado se trata del caso típico en el que antes de llevar a cabo mediciones en el laboratorio ya existe un modelo teórico -una fórmula- en espera de ser confirmado experimentalmente por mediciones u observaciones llevadas a cabo después de haber sido obtenida la fórmula. Pero hay muchos otros casos en los cuales aunque los datos experimentales, pese a las fuentes inevitables de variación y de errores de medición, parecen seguir alguna ley que se pueda ajustar a un modelo teórico, tal fórmula no existe, ya sea porque aún no se ha encontrado o quizá porque es demasiado compleja para poder ser enunciada en unos cuantos renglones. En tales casos lo mejor que podemos hacer es llevar a cabo el ajuste de los datos obtenidos experimentalmente a una fórmula empírica, una fórmula seleccionada entre muchas por ser la que mejor acomoda los datos. El ejemplo más sonado de esto en la actualidad tiene que ver con el presunto calentamiento global de la Tierra, confirmado independientemente por varios datos recabados experimentalmente a lo largo de varias décadas en muchos sitios alrededor de la Tierra. Aún no tenemos una fórmula exacta y ni siquiera una fórmula empírica que nos permita vaticinar las temperaturas que tendrá la Tierra en años posteriores en caso de seguir las cosas como hasta ahora. Lo único que tenemos son gráficas en las cuales, globalmente hablando, se puede apreciar cierta tendencia hacia un incremento gradual en la temperatura, inferida por la tendencia de los datos (data trend), e inclusive algunos de estos datos son motivo de controversia, como los datos de las temperaturas registradas en Punta Arenas, Chile, entre 1888 y 2001:



De acuerdo con la gráfica de estos datos sobre los cuales se ha ajustado una línea recta de color rojo que, matemáticamente hablando, representa la tendencia de los datos promediados con el tiempo, la temperatura en esa parte del mundo no ha ido aumentando a lo largo de más de un siglo, sino que por el contrario ha ido disminuyendo en un promedio acumulado de unos 0.6 grados Centígrados, contraviniendo las mediciones que se han estado llevando a cabo en otras partes del mundo. Aún no sabemos exactamente la razón por la cual lo que ocurre allí es diferente a lo que se observa en otras partes del mundo. Posiblemente hay interacciones con las temperaturas del mar, con las condiciones climáticas en esa región del planeta, o inclusive hasta con la rotación de la Tierra, que están influyendo para causar una caída en lugar de una subida en las temperaturas observadas en Punta Arenas. De cualquier modo, pese a las altas y bajas de los datos, con tales datos es posible obtener la línea recta de color rojo -superimpuesta sobre los datos- que matemáticamente hablando se "ajusta" mejor que otras rectas al promedio acumulado móvil de los datos. De mantenerse la tendencia, esta línea recta nos permite estimar, entre las altas y bajas que vayan ocurriendo en los datos en los años posteriores, las temperaturas promedio que habrá a corto plazo en Punta Arenas en los años venideros. Sobre estos datos, la recta de mejor ajuste (best fit) representa una fórmula completamente empírica para la cual no existe hasta la fecha ningún modelo teórico que la apoye. Y así como esta fórmula hay muchísimas en las cuales se trata de simplificar con algún modelo matemático algo que se está observando o midiendo.

Muchas veces, al llevar a cabo el graficado de los datos (el paso más importante previo a la selección del modelo matemático al cual trataremos de "ajustar" los datos), desde antes de tratar de llevar a cabo el ajuste de los datos a una fórmula podemos detectar la presencia de alguna anomalía en los mismos debida a una fuente inesperada de error que no tiene nada que ver con el error de naturaleza estadística, como lo muestra la siguiente gráfica de las temperaturas de los lagos de Detroit:




Obsérvese con detenimiento en esta gráfica que hay dos puntos que no fueron unidos con rectas por los investigadores para destacar la presencia de una anomalía grave en los datos. Se trata de los puntos que representan el final de 1999 y el principio del año 2000. Al empezar el año 2000, los datos muestran un "salto" desproporcionado en relación al historial previo de datos. Aunque podemos tratar de forzar todos los datos a que se agrupen bajo cierta tendencia predicha por una fórmula empírica, una anomalía como la que se observa en esta gráfica prácticamente nos pide a gritos una explicación antes de ser sepultada entre tal fórmula empírica. Un repaso de los datos reveló que, en efecto, el "brinco" desproporcionado tuvo que ver con un fenómeno que ya se preveía en esa época que iba a ocurrir con algunos sistemas computacionales no preparados para las consecuencias del cambio de dígitos en la fecha de 1999 a 2000, bautizado en ese entonces como el fenómeno Y2k (un acrónimo de la frase "Year 2000" en donde la k simboliza mil). El descubrimiento de este efecto dió pie a un intercambio de aclaraciones documentados en sitios como los siguientes:

http://www.climateaudit.org/?p=1854

http://www.climateaudit.org/?p=1868

Este intercambio de aclaraciones llevó a la misma agencia norteamericana espacial NASA a corregir sus propios datos tomando en cuenta el efecto Y2k, datos que ya corregidos aparecen en el siguiente sitio:

http://data.giss.nasa.gov/gistemp/graphs/Fig.D.txt

Los ejemplos que hemos visto han sido ejemplos en los cuales los datos experimentales pese a las variaciones en los mismos permiten el ajuste de los mismos a una fórmula matemática aproximada o permiten inclusive la detección de algún error en la recabación de los mismos. Pero hay muchas otras ocasiones en las cuales al llevar a cabo el graficado de los datos la presencia de alguna tendencia no resulta nada obvia, como lo muestra el siguiente ejemplo de datos recabados sobre la frecuencia de las manchas solares (lo cual tal vez tenga algún efecto sobre el calentamiento global de la Tierra):



En la gráfica de los datos se ha superimpuesto una línea roja que bajo un criterio matemático estadístico representa la línea de "mejor ajuste" a los datos. Pero en este caso esta línea no representa claramente un obvio descenso, inclusive la línea casi parece ser una línea horizontal. Si borramos la línea, los datos parecen tan dispersos que el haber escogido una línea recta para tratar de "agrupar" la tendencia de los datos parece más bien un acto de fé que de objetividad científica. Es posible que no haya razón alguna para esperar una variación estadísticamente significativa sobre la frecuencia de las manchas solares en el transcurso de varios siglos o inclusive de varios milenios, dada la enorme complejidad de los procesos nucleares que mantienen al Sol en constante actividad. Este último ejemplo demuestra las enormes dificultades que tiene que enfrentar cualquier investigador al tratar de analizar un conjunto de datos experimentales sobre los cuales no existe modelo teórico alguno.

En el ajuste de datos a fórmulas es de importancia vital tener siempre en mente la ley de causa y efecto. En el caso de la ley de la gravitación universal, enunciada mediante una fórmula exacta, si suponemos las masas de dos cuerpos como invariables, entonces una variación de la distancia que hay entre las masas tendrá un efecto directo sobre la fuerza de atracción gravitatoria que hay entre ellas. Una serie de datos experimentales puestos sobre una gráfica nos confirmará esto. Y aún en casos en los que no hay un modelo exacto, podemos (o mejor dicho, tenemos que) suponer una relación causa-efecto para que un modelo entre dos variables pueda tener algún sentido. Tal sería el caso al llevar a cabo las mediciones de las estaturas entre alumnos de diversos grados de una escuela primaria. En este caso, las estaturas promedio de los alumnos correspondientes a cada grado será diferente, irá aumentando conforme vaya aumentando el grado escolar, por el simple hecho de que los alumnos a esa edad van aumentando cada año de estatura. En pocas palabras, entre mayor sea el grado escolar, mayor será la estatura promedio de los alumnos que esperamos encontrar en un grupo. Esta es una relación causa-efecto. En contraste, si queremos encontrar una relación directa entre la temperatura ambiente de una ciudad para cierto día del año y la cantidad de animales domésticos que los habitantes tienen en sus casas, lo más probable es que no encontraremos relación alguna y saldremos con las manos vacías, porque no hay razón alguna para esperar que la cantidad promedio de mascotas en cada hogar (causa) puede tener alguna influencia sobre la temperatura ambiente (efecto), y si la tiene, tal efecto sería matemáticamente despreciable por su pequeñez.

Los casos que hemos visto involucran situaciones basadas en fenómenos naturales para los cuales podemos llevar a cabo mediciones en el laboratorio o fuera del laboratorio usando algo tan simple como un termómetro o como un telescopio de aficionados. Pero hay muchos otros casos en los cuales no es necesario llevar a cabo mediciones, porque más que obtener datos en el laboratorio lo que se necesita es tener un modelo matemático que nos permita hacer una proyección o un vaticinio con los datos que ya se tienen a la mano, como los datos obtenidos en un censo o en una encuesta. Un ejemplo de ello es el crecimiento esperado de la población anual de México. El censo nacional de población es el que se encarga de estar obteniendo cifras sobre la población de México, de manera tal que para poder tratar de hacer un vaticinio sobre el crecimiento esperado de la población en años futuros todo lo que tenemos que hacer es ir al Instituto Nacional de Estadística, Geografía e Informática (INEGI) para obtener los resultados de los censos anteriores. Se dá por hecho que los datos numéricos en dichos censos no son exactos, no hay razón para esperar tal cosa, dada la enorme cantidad de variables que tienen que enfrentar los trabajadores que deben llevar a cabo los censos y la situación cambiante día a día que puede afectar la "realidad" del censo. Aún suponiendo que los censos se pudieran llevar a cabo en forma exacta, nos quedaría otro problema. Si graficamos los índices de población de cada 5 años (por ejemplo), no habría problema alguno en hacer predicciones futuras en base a los datos del pasado si los datos al ser graficados cayeran todos en una "línea recta". El problema es que al ser graficados casi nunca caen en una línea recta, por lo general se agrupan en torno a lo que parece ser una curva. Aquí podemos tratar de "ajustar" los datos a una de varias fórmulas y utilizar la que mejor se aproxime a todos los datos que ya se tienen, para lo cual necesitamos de un criterio matemático-estadístico que sea lo menos subjetivo posible. Y es precisamente para esto para lo cual requerimos de los principios que serán tratados aquí.

En el ajuste de datos a fórmulas, existen casos en los cuales no es necesario entrar en cálculos matemáticos detallados por la sencilla razón de que para tales casos se han obtenido ya fórmulas que únicamente requieren el cálculo de cosas tan sencillas como la media aritmética (frecuentemente designada como µ, la letra griega mu, equivalente de la letra latina "m", por lo de media aritmética) de los datos y la desviación estándard σ (la letra griega sigma, el equivalente de la letra latina "s", por lo de "standard") de los mismos. Nos estamos refiriendo al ajuste de los datos a una curva Gaussiana. Un ajuste de este tipo se aplica a situaciones en las cuales en lugar de tener alguna variable dependiente Y cuyos valores dependan de los valores que pueda tomar una variable independiente X sobre la que tal vez se pueda ejercer algún control tenemos un conjunto de datos en los cuales lo importante es la frecuencia con la cual los datos que se recaban estén situados dentro de ciertos rangos. Un ejemplo de ello serían las calificaciones en cierta materia de un grupo numeroso de 160 estudiantes cuyas calificaciones muestren una distribución como la siguiente:
Entre 4.5 y 5.0: 4 estudiantes
Entre 5.0 y 5.5: 7 estudiantes
Entre 5.5 y 6.0: 11 estudiantes
Entre 6.0 y 6.5: 16 estudiantes
Entre 6.5 y 7.0: 29 estudiantes
Entre 7.0 y 7.5: 34 estudiantes
Entre 7.5 y 8.0: 26 estudiantes
Entre 8.0 y 8.5: 15 estudiantes
Entre 8.5 y 9.0: 11 estudiantes
Entre 9.0 y 9.5: 5 estudiantes
Entre 9.5 y 10.0: 2 estudiantes
Este tipo de distribuciones, cuando son graficadas, estadísticamente muestran cierta tendencia de llegar a alcanzar un punto máximo en una curva que se asemeja a una campana. El primer cálculo que podemos efectuar sobre tales datos es el promedio aritmético o media aritmética definida como:



Por la forma en la cual están presentados los datos, tenemos que hacer una ligera modificación en nuestros cálculos para poder obtener la media aritmética de los mismos, usando como el valor representativo de cada intervalo el valor medio entre el mínimo y el máximo de cada intervalo. Así, el valor representativo del intervalo entre una calificación de 4.5 y 5.0 será 4.75, el valor representativo del intervalo entre 5.0 y 5.5 será 5.25, y así sucesivamente. A cada uno de estos valores representativos de cada intervalo tenemos que darle el peso "justo" que le corresponde en el cálculo de la media aritmética multiplicándolo por la frecuencia con la cual ocurre. Así, el valor 4.75 será multiplicado por 4 puesto que esa es la frecuencia con la cual ocurre, y el valor 5.25 será multiplicado por 7 puesto que esa es la frecuencia con la cual ocurre, y así sucesivamente. De este modo, la media aritmética de la población de los 150 estudiantes será:

X = [(4)(4.75) + (7)(5.25) + (11)(5.75) + ... (9.75)(2)]/160

X = 7.178

Habiendo obtenido la media aritmética X, el siguiente paso sería obtener la dispersión de dichos datos con respecto a la media aritmética, a través de un cálculo como la varianza σ² en la cual promediamos la suma de los cuadrados de las diferencias di de cada dato con respecto a la media aritmética para obtener la varianza σ² de la población de datos:

Σd² = 4∙(4.75-7.178)² + 7(5.25-7.178 )² + ... + 2∙(2-7.178)²

Σd² = 178.923

σ² = Σd²/N = 1.118

con lo cual podemos obtener la desviación estándard σ de la población de datos (conocida también como la raíz cuadrada media de las desviaciones -distancias- de los datos a la media aritmética) con la simple operación de tomar la raíz cuadrada de la varianza:

σ = √1.118 = 1.057

Cabe aclarar que la desviación estándard σ evaluada para una muestra tomada al azar de entre una población tiene una definición un poco diferente a la desviación estándard σ evaluada sobre todos los datos del total de la población. La desviación estándard σ de la muestra de una población se obtiene reemplazando el término N en el denominador por N-1, porque al decir de los "puristas" el valor así obtenido es una mejor estimación de la desviación estándard de la población de la cual fue tomada la muestra. Sin embargo, para valores suficientemente grandes de una muestra (N mayor que 30), prácticamente no hay diferencia alguna entre ambas estimaciones de σ. De cualquier modo, cuando se desea obtener una "mejor estimación", siempre se puede obtener multiplicando la desviación estándard que hemos definido por √N/N-1 . Es importante tener en mente que σ es una medida hasta cierto punto arbitraria de una dispersión de datos, es algo que nosotros mismos hemos definido, y el que utilicemos N-1 en vez de N en el denominador en realidad no es un absoluto. Sin embargo, es una convención universalmente aceptada, quizá entre otras cosas (además de las razones teóricas esgrimidas por los puristas) por el hecho de que para calcular una dispersión de datos se requieren por lo menos dos datos, lo cual es reconocido implícitamente por el uso de N-1 en el denominador ya que de esta manera no es posible darle a N un valor de uno sin caer en una división por cero; la definición que utiliza a N-1 elimina del panorama cualquier interpretación posible de σ con un solo dato. Y la otra razón de peso que tiene que ver más con las razones argumentadas por los puristas es que el uso de N-1 en el denominador tiene que ver con algo que se llama los grados de libertad en el análisis de la varianza conocido como ANOVA (Análisis of Variance) que se utiliza en el diseño de experimentos (aunque esto ya es salirnos un poco del tema que estamos discutiendo en esta obra).

En la estadística descriptiva, la cual se lleva a cabo teniendo todos los valores de una población de datos y no tomando una muestra de dicha población, lo más relevante de la gráfica de las frecuencias relativas de los datos o histograma es el "área bajo la curva" y no tanto la fórmula de la curva que deba pasar por la "altura" de cada grupo de datos, usándose la curva para encontrar la probabilidad matemática de tener a un grupo estudiantes entre cierto rango de calificaciones, por ejemplo entre 7.5 y 9.0, una probabilidad cuyo valor matemático siempre está situado entre cero y la unidad. Esto es lo que tradicionalmente se enseña en los libros de texto.

Sin embargo, antes de aplicar las tablas estadísticas para llevar a cabo algún análisis probabilístico del "área bajo la curva", es de interés saber qué tan bien se ajustan los datos a una curva continua que se pueda trazar conectando las alturas del histograma. La fórmula que mejor describe a un conjunto de datos como los que se han mostrado en el ejemplo es la que dá origen a la curva Gaussiana. A continuación, para la siguiente fórmula "Gaussiana":



tenemos la gráfica de la curva continua trazada por dicha fórmula:


Como puede verse, la curva ciertamente tiene la forma de una campana, de lo cual deriva uno de los nombres con los cuales es conocida.

Se puede demostrar, recurriendo a un criterio matemático conocido como el método de los mínimos cuadrados, que una fórmula general que modela una curva Gaussiana a un conjunto dado de datos con la apariencia de una "campana" es la siguiente:



Y resulta que µ es precisamente la media aritmética de la población de datos designada también como X, mientras que σ² es la varianza presentada por la población de datos. Esto signica que, para modelar una curva a un conjunto de datos como el que hemos estado manejando en el ejemplo, basta con calcular la media aritmética y la varianza de los datos, y meter estos datos directamente a la fórmula Gaussiana, con lo cual tendremos la curva de "mejor ajuste" (bajo el criterio de los mínimos cuadrados) a los datos. La evaluación del parámetro A no representa problema alguno, ya que la curva debe llegar (más no sobrepasar) hasta una altura de 34 (el número de estudiantes que representa la mayor frecuencia con respecto a los otros rangos de calificaciones), de tal modo que la fórmula de la curva ajustada a los datos del ejemplo es la siguiente:



La gráfica de esta curva Gaussiana, superimpuesta sobre la gráfica de barras que contiene los datos discretos a partir de los cuales fue generada, es la siguiente:



Podemos ver que el ajuste es razonablemente bueno, considerando el hecho de que en la vida real los datos experimentales u observados nunca se ajustan exactamente a una curva Gaussiana ideal.

Una cosa con la cual tenemos que lidiar desde un principio y la cual casi nunca es suficientemente aclarada y explicada bien en los salones de clase es el hecho de que la fórmula Gaussiana general permite no solo valores positivos de X sino inclusive permite también valores negativos, los cuales carecen de interpretación en el mundo real en casos como el que acabamos de ver (en un sistema de calificaciones de estudiantes como el que estamos suponiendo, cualquier calificación solo puede variar de cero como calificación mínima a diez como calificación máxima). En principio, X puede variar desde X=-∞ hasta X=+∞. En muchos casos esto no representa problema alguno, ya que la curva se aproxima rápidamente a cero antes de que X descienda debajo de cero tomando valores negativos, como ocurre en nuestro ejemplo en donde la media aritmética está lo suficientemente alejada de X=0 y la dispersión de los datos es lo suficientemente pequeña para considerar a los valores negativos de X como irrelevantes aunque la fórmula lo permita. Pero en casos en los cuales la media aritmética X está demasiado cercana a X=0 y los datos manifiestan una dispersión grande, cabe siempre la posibilidad de que un extremo de la curva termine cayendo "del otro lado" en la zona para la cual X toma valores negativos. Si esto llega a suceder, esto podría obligarnos inclusive a abandonar el modelo Gaussiano y buscar otras alternativas que ciertamente serán más desagradables de manejar desde el punto de vista matemático.

Se ha proporcionado un procedimiento para poder obtener la fórmula de una curva que pueda conectar las alturas de cada barra de un histograma de datos que muestre la forma de la "campana", pero es importante aclarar que los puntos individuales de la curva carecen de significado real; lo cual equivale a que afirmar que un punto como X=7.8 para el cual el valor de Y es igual a 28.595 es algo que no nos debe significar absolutamente nada, ya que es la región bajo la curva lo que tiene sentido, ya que la curva fue generada a partir de barras de histograma que van cambiando de un intervalo a otro. Sin embargo, lo que hemos hecho aquí está justificado para fines comparativos porque antes de aplicar nuestras nociones de estadística a un conjunto de datos usando la distribución Gaussiana queremos cerciorarnos sobre si realmente los datos que vamos a analizar tienen la forma de una campana, porque si los datos parecen seguir una tendencia linear siempre ascendente o si en lugar de una campana tenemos dos campanas (esto último ocurre cuando se van acumulando datos que provienen de dos fuentes diferentes), mal haríamos en tratar de forzar tales datos sobre una distribución Gaussiana. Es importante agregar también que la curva que hemos visto no es la curva Gaussiana que se estudia en los textos de estadística, ya que para ello tenemos que normalizar la fórmula de modo tal que no solo la media aritmética sea desplazada hacia la izquierda en el diagrama para que tenga un valor de cero siendo simétrica hacia ambos lados con respecto a X=o, sino que además el área bajo la curva tenga como valor la unidad; esto con el objeto de darle a la curva una interpretación probabilística en su aplicación no a la estadística descriptiva sino a la estadística inferencial en la cual de una muestra tomada al azar tratamos de averiguar el comportamiento de los datos de una población general. De este proceso de normalización deriva el nombre de dicha curva como curva normal.

Antes de tratar de invertir tiempo y esfuerzo en ajustar datos empíricos a una fórmula, antes de hacer cualquier cálculo aritmético, es importante hacer cuanto antes una gráfica de los datos, ya que esto es lo primero que habrá de guiarnos en la selección del modelo matemático que habremos de utilizar para el modelaje. En el caso de distribuciones de frecuencias como las que hemos estado viendo, las cuales se representan por medio de histogramas, si al hacer una gráfica de los datos obtenemos algo como lo siguiente:



entonces si bien podemos "forzar" los datos a que entren dentro de alguna fórmula modelada sobre una variable independiente continua cuyo trazo se "ajuste" a las alturas de las barras de los histogramas, obteniendo en este último ejemplo un ajuste como el siguiente (este ajuste se llevó a cabo simplemente sumando las expresiones para dos curvas Gaussianas con medias aritméticas distintas, modificando individualmente las varianzas y las amplitudes de cada curva al tanteo):



este ajuste será un ajuste sin sentido, ya que una gráfica como esta, conocida como gráfica bimodal, la cual tiene dos "topes" máximos, nos está diciendo que en vez de tener una población de datos con el mismo origen lo que tenemos es dos poblaciones de datos con orígenes distintos, datos que llegaron revueltos en un solo "paquete" a manos del analista. Es entonces cuando el analista prácticamente está obligado a ir al "campo" para ver cómo y de dónde fueron recabados los datos. Es posible que los datos representen las longitudes de ciertas vigas que fueron producidas por dos máquinas diferentes. También es posible que estos datos se hayan originado en un experimento en donde se estaba probando el efecto de un nuevo tipo de fertilizante en el rendimiento de unos cultivos y que el fertilizante estaba siendo suministrado a parcelas experimentales por dos personas diferentes en dos lugares diferentes, en cuyo caso hay algo que está produciendo una diferencia significativa en el rendimiento del fertilizante además del efecto que pueda tener el fertilizante en sí, ya sea que ambas personas hayan estado suministrando cantidades diferentes del mismo fertilizante, o que las características de diferentes terrenos hayan causado una alteración en la distribución Gaussiana del rendimiento de cada tipo de fertilizante.

En el caso de la curva continua con "doble joroba" mostrada arriba, esta curva fue trazada por la siguiente fórmula obtenida al tanteo sumando dos curvas Gaussianas y fijando el "tope" de cada curva para hacer coincidir de modo aproximado -manipulando la media aritmética µ en cada término- los topes con cada una de las dos barras máximas, modificando también la varianza σ en cada término para "abrir" o "cerrar" el ancho de cada curva ajustándolo a voluntad:



A continuación tenemos las gráficas separadas individualmente (no sumadas) de cada una de las curvas Gaussianas que aparecen en la fórmula, mostrando una distribución probable de los datos de las dos poblaciones distintas de las cuales procedieron los datos revueltos.



En este ejemplo, resultó fácil con solo ver el histograma -la gráfica de barras de los datos- la presencia de dos curvas Gaussianas en lugar de una sola, gracias a que las medias aritméticas de cada curva (5.7 y 10.4) están separadas casi por un margen de dos a uno. Pero no siempre tendremos tanta suerte, y habrá casos en los que las medias aritméticas estarán tan cercanas la una a la otra que le será algo difícil al analista decidir si considera todos los datos como uno solo o si trata de encontrar dos curvas distintas, como ocurriría con una gráfica cuya curva uniendo las alturas de las barras tuviera el siguiente aspecto:



Es en casos como estos en los cuales el analista tiene que echar mano de todo su ingenio y toda su experiencia para decidir si trata de encontrar dos grupos discernibles de datos en el conjunto de datos que tiene a la mano, o si no vale la pena buscar la presencia de dos poblaciones distintas revueltas en una sola, optando por llevar a cabo el modelaje en base a una sola fórmula Gaussiana.

El descubrir la influencia de factores desconocidos que puedan afectar el rendimiento de algo como un fertilizante es precisamente uno de los objetivos primarios del diseño de experimentos. En el diseño de experimentos no estamos interesados en llevar a cabo un modelaje de los datos a una fórmula, eso viene después cuando se ha determinado de manera unívoca cuántos y cuáles son los factores que pueden alterar el rendimiento o la respuesta de algo. Una vez que se superado esta etapa, entonces podemos recabar datos para llevar a cabo el ajuste de datos a una fórmula. En el caso de una distribución bimodal, en vez de tratar de ajustar una fórmula para describir todos los datos con una sola distribución como la que hemos visto, es mucho más provechoso tratar de separar los datos provenientes de las dos distintas poblaciones que están provocando la "doble joroba de camello"; hecho esto podemos analizar dos conjuntos de datos por separado con la seguridad de que para cada conjunto de datos obtendremos una distribución Gaussiana con una sola "joroba". Puede verse con esto que el modelaje de datos a fórmulas es un ciclo continuo de experimentación, análisis e interpretación de los resultados, seguido de un nuevo ciclo de experimentación y de análisis e interpretación de nuevos resultados con el fin de ir mejorando algún proceso o poder ir describiendo mejor los datos que están siendo recabados en algún laboratorio o en el campo. El modelaje de datos a fórmulas va de la mano con los procedimientos para la recabación de los mismos.


PROBLEMA: Experimentalmente, se encuentra en el laboratorio que el punto de ebullición para unos compuestos orgánicos conocidos como los alcanos (con fórmula química CnH2n+2) tiene los siguientes valores en grados Centígrados:

Metano (1 átomo de carbono): -161.7

Etano (2 átomos de carbono): -88.6

Propano (3 átomos de carbono) : -42.1

Butano (4 átomos de carbono): -0.5

Pentano (5 átomos de carbono): 36.1

Hexano (6 átomos de carbono): 68.7

Heptano (7 átomos de carbono): 98.4

Octano (8 átomos de carbono): 125.7

Nonano (9 átomos de carbono): 150.8

Decano (10 átomos de carbono): 174.0

Hacer una gráfica de los datos.¿Muestra alguna tendencia la temperatura de ebullición de estos compuestos orgánicos de acuerdo con la cantidad de átomos de carbono que posee cada compuesto?

La gráfica de los datos discretos es la siguiente:



En la gráfica podemos observar que los datos parecen acomodarse a una curva continua sin saltos bruscos, obedeciendo la relación causa-efecto, lo cual nos sugiere que detrás de estos datos hay una ley natural en espera de ser descubierta por nosotros. Puesto que los datos no parecen seguir una línea recta, la relación que hay entre ellos no es una relación linear, es una relación no-linear, y no esperamos que la fórmula matemática que esté detrás de esta curva sea la de una línea recta. En ausencia de un modelo teórico que nos permita tener la fórmula exacta, la gráfica originada por este conjunto de datos es una muestra excelente de los lugares en donde podemos tratar de ajustar los datos a una fórmula empírica que, entre mejor se ajuste a los datos, mejor nos sugerirá la naturaleza de las leyes naturales operando detrás de este fenómeno.

PROBLEMA: Dada la siguiente distribución de los diámetros de las cabezas de unos remaches (expresados en pulgadas) fabricados por cierta compañía y la frecuencia f con la que ocurren:



representativa de un total de 250 mediciones, ajustar una curva Gaussiana a estos datos. Asimismo, hacer el trazo de una gráfica de barras de los datos superimponiendo la curva Gaussiana en la misma gráfica.

Para obtener la curva Gaussiana, el primer paso consiste en obtener la media aritmética de los datos:


Por la forma en la cual están presentados los datos, tenemos que hacer una ligera modificación en nuestros cálculos para poder obtener la media aritmética de los mismos, usando como el valor representativo de cada intervalo el valor medio entre el mínimo y el máximo de cada intervalo. Así, el valor representativo del intervalo entre .7247 y .7249 será .7248, el valor representativo del intervalo entre .7250 y .7252 será .7251, y así sucesivamente. A cada uno de estos valores representativos de cada intervalo tenemos que darle el peso "justo" que le corresponde en el cálculo de la media aritmética multiplicándolo por la frecuencia con la cual ocurre. Así, el valor .7248 será multiplicado por 2 puesto que esa es la frecuencia con la cual ocurre, y el valor .7251 será multiplicado por 6 puesto que esa es la frecuencia con la cual ocurre, y así sucesivamente. De este modo, la media aritmética de la población de 250 datos será:

X = [2∙(.7248) + 6∙(.7251) + 8∙(.7254) + ... + 4∙(.7278) + 1∙(.7281)]/250

X = 181.604/250

X = .72642 pulgadas

Tras esto obtenemos la desviación estándard σ calculando primero la varianza σ2, usando también aquí en nuestros cálculos los valores representativos de cada intervalo y la frecuencia con la cual ocurre cada uno de dichos valores:

Σd² = 2∙(.7248-.72646)² + 6(.7251-.72642)² + ... + 1∙(.7281-.72642)²

Σd² = 0.000082926

σ² = Σd²/N = 0.00008292/250 = 0.000000331704

σ = .00057594 pulgadas

Con esto tenemos todo lo que necesitamos para producir la curva Gaussiana ajustada a los datos. La altura de la curva es seleccionada para coincidir con la barra (representativa del rango de datos) que tenga también la mayor altura, la cual viene siendo el rango de diámetros comprendido entre .7262 y .7264 pulgadas con una "altura" de 68 unidades. De este modo, la gráfica, utilizando una "altura" para la curva Gaussiana de 68 unidades, es la siguiente:



El ajuste de la curva Gaussiana a los datos no parece ser tan "ideal" como hubiéramos querido. Esto tiene que ver con algo más fundamental que el hecho de que la media aritmética X de los datos (.72642 pulgadas) no coincide exactamente con el punto representativo del intervalo de valores (.7263) en el cual ocurre la mayor frecuencia de las 68 observaciones (y se enfatiza aquí como algo de la mayor importancia que en la vida real es muy rara la vez en la cual el máximo de la curva calculada coincide con el valor aritmético más probable que viene siendo el promedio aritmético), y mucho menos con el hecho de que la gráfica de barras ha sido trazada sin que cada barra se extienda hasta tocarse con sus barras vecinas. Si observamos bien la distribución de los datos, podemos apreciar que los datos de la distribución de barras están más cargados hacia la derecha que hacia la izquierda. La curva Gaussiana ideal que hemos venido manejando es una curva perfectamente simétrica, con la misma cantidad de datos u observaciones distribuídos hacia la derecha de su eje vertical de simetría que hacia la izquierda. Esta asimetría es conocida como sesgo (skew) o ladeo precisamente porque los datos originales están cargados más de un lado que del otro; esto es precisamente lo que hace que el "máximo" de la distribución de barras en la gráfica no coincida con la media aritmética de los datos. Y aunque existe un teorema en Estadística conocido como el Teorema del Límite Central (Central Limit Theorem) que nos dice que la suma de un gran número de variables aleatorias independientes se irán distribuyendo en forma normal (Gaussiana) conforme aumenta la cantidad de datos u observaciones, el tomar más y más lecturas no necesariamente hará que los datos que se están ajustando a una curva se vuelvan más simétricos, ello no ocurrirá si hay razones de fondo por las cuales hay más datos cargados hacia un lado que hacia el otro. Esta es una situación que la curva Gaussiana ideal no está preparada para manejar, y si queremos ajustar en forma precisa una curva a datos en los cuales esperaríamos un comportamiento Gaussiano ideal entonces tenemos que modificar la curva Gaussiana volviendo la fórmula más compleja, recurriendo a algún truco tal como el multiplicar la amplitud de la curva por algún factor que haga que su descenso no sea tan "suave" ya sea hacia la derecha o hacia la izquierda. Desafortunadamente, el recurso a este tipo de trucos muchas veces carece de justificaciones teóricas que expliquen la modificación a la curva modelada, son simplemente un recurso para obtener un ajuste más preciso. Es aquí cuando el experimentador o el analista de los datos tiene que decidir si el objetivo que está procurando realmente justifica el recurrir a este tipo de trucos que, aunque logran su propósito, no ayudan a mejorar nuestra comprensión sobre lo que está sucediendo detrás de un cúmulo de datos.


Hay experimentos en los cuales aunque resulta tentador obtener de inmediato una fórmula de "mejor ajuste" a una serie de datos, tal fórmula servirá de muy poco para obtener una conclusión o descubrimiento verdaderamente importante que puede ser extraído con un poco de astucia en el estudio de los datos acumulados. Un ejemplo de ello es el siguiente problema (problema 31) tomado del capítulo 27 (El Campo Eléctrico) del libro "Física para Estudiantes de Ciencias e Ingeniería" de David Halliday y Robert Resnick:


PROBLEMA: En uno de sus primeros experimentos (1911) Millikan observó que, entre otras cargas, aparecían en diferentes momentos las siguientes, medidas en una gota determinada:
6.563•10-19 coulombs

8.204•10-19 coulombs

11.50•10-19 coulombs

13.13•10-19 coulombs

16.48•10-19 coulombs

18.08•10-19 coulombs

19.71•10-19 coulombs

22.89•10-19 coulombs

26.13•10-19 coulombs
¿Qué valor de la carga elemental puede deducirse de estos datos?

Acomodando los datos en orden creciente de magnitud, podemos hacer una gráfica de los mismos que resulta ser la siguiente (esta gráfica así como otras puestas en esta obra puede ser vista con mayor claridad o inclusive en varios casos ampliada con el simple recurso de ampliar la imagen):



Es importante destacar que en esta gráfica no hay una variable independiente (cuyo valor quedaría puesto en el eje horizontal) ni una variable dependiente (cuyo valor sería puesto en el eje vertical), ya que en el eje horizontal simplemente se ha asignado un número ordinal diferente a cada uno de los valores experimentales anotados; de este modo el primer dato (1) tiene un valor de 6.563•10-19, el segundo dato (2) tiene un valor de 8.204•10-19, y así sucesivamente.

Podemos, si queremos, obtener una línea recta de "mejor ajuste" para estos datos trazada a mano. Pero esto pierde por completo la perspectiva del experimento. Una gráfica mucho más útil que la gráfica de puntos arriba mostrada es la siguiente gráfica de los datos conocida como gráfica de escalera o gráfica de paso:



Inspeccionando detenidamente la gráfica de estos datos, podemos darnos cuenta de que hay "escalones" cuya altura parece ser la misma de un dato al siguiente. La diferencia entre las observaciones 1 y 2, por ejemplo, parece ser la misma que la diferencia entre las observaciones 6 y 7. Y aquellos "saltos" en donde no lo es, la altura parece ser el doble de la altura de los otros escalones. Si la altura de un escalón al siguiente no tuviera esta similitud con ninguna de las observaciones restantes, podríamos concluír que las diferencias son completamente aleatorias. Pero esto no es lo que está ocurriendo, y los escalones parecen tener alturas iguales o doblemente iguales. Estos datos nos están revelando algo importante, que la carga eléctrica está cuantizada; la carga eléctrica reportada aquí no varía en tantos de 0.7, 1.4 ó 2.5, sino en múltiplos enteros de uno o dos tantos. Los datos nos están confirmando la existencia del electrón, la carga eléctrica más pequeña que ya no es posible subdividir por medios físicos o químicos a nuestro alcance. Entre los datos en los cuales el "salto" de un escalón a otro es el doble del que hay en otros escalones, podemos concluír que hay datos "ausentes" y que, con una cantidad adicional de experimentos, deberá ser posible encontrar valores experimentales entre esos saltos "dobles" que, puestos en la gráfica, nos deberán producir una escalera con escalones de la misma altura que podríamos llamar "básica". A manera de ejemplo, entre el valor reportado de 11.50•10-19 coulombs y 8.204•10-19 coulombs debe de haber un valor intermedio de unos 9.582•10-19 coulombs que con una recabación adicional de datos en el laboratorio debería ser posible detectar tarde o temprano.

Podemos estimar la magnitud de este cuanto de carga eléctrica que hoy conocemos como el electrón obteniendo primero las diferencias entre los datos que representan un salto unitario obteniendo el promedio de los mismos, y tras esto las diferencias entre los datos que representan un salto "doble" obteniendo también el promedio de los mismos y dividiendo el resultado de este último entre dos, sumando y promediando los dos conjuntos de valores para obtener así un resultado final:

Conjunto 1 (salto unitario):
8.204•10-19 - 6.563•10-19 = 1.641•10-19

13.13•10-19 - 11.50•10-19 = 1.63•10-19

18.08•10-19 - 16.48•10-19 = 1.6•10-19

19.71•10-19 - 18.08•10-19 = 1.63•10-19
Conjunto 2 (salto doble):
11.50•10-19 - 8.204•10-19 = 3.296•10-19

16.48•10-19 - 13.13•10-19 = 3.35•10-19

22.89•10-19 - 19.71•10-19 = 3.18•10-19

26.13•10-19 - 22.89•10-19 = 3.24•10-19
El promedio del primer conjunto de datos es:

(1.641•10-19 + 1.63•10-19 + 1.6•10-19 + 1.63•10-19) /4 = 1.625•10-19 coulombs

Y el promedio del segundo conjunto de datos es:

(3.376•10-19 + 3.35•10-19 + 3.18•10-19 + 3.24•10-19) /4 = 3.2655•10-19

que dividido entre dos resulta ser:

3.2655•10-19 /2 = 1.633•10-19 coulombs

Como hay tantos datos (4 datos) en el primer conjunto como en el segundo conjunto, podemos darle el mismo "peso aritmético" a cada uno de los promedios obtenidos, sumando el primer promedio al segundo promedio y dividiendo el resultado entre dos (de no haber sido así, de haber tenido ambos conjuntos una cantidad diferente de observaciones, tendríamos que darle un "factor de peso" aritmético a cada conjunto para darle a cada contribución de acuerdo a su importancia relativa):

(1.625•10-19 + 1.633•10-19) /2 = 1.63•10-19 coulombs

Como colofón a este problema, se agrega que experimentos llevados a cabo posteriormente con mayor precisión y minimizando las fuentes de error con una recabación de un gran número de datos (lo cual ayuda a ir reduciendo el error aleatorio debido a causas fuera del control del experimentador) se llega a un valor más preciso de 1.60•10-19 coulombs para la carga del electrón, que es el valor aceptado hoy en día.

Este problema destaca que, antes de intentar ajustar un conjunto de datos experimentales a una fórmula, es importante estudiar detenidamente la gráfica de los datos para ver si no estamos omitiendo algo sumamente importante que nos están diciendo los datos. Tal vez ni siquiera resulte de importancia o de utilidad alguna el tratar de obtener una fórmula ajustada a los datos bajo tales condiciones.

sábado, 29 de marzo de 2008

2: El ajuste a fórmulas lineares




El ajuste más sencillo de datos a fórmula que podamos llevar a cabo es aquél en el cual los datos manifiestan una tendencia linear, en la cual los datos parecen seguir una tendencia propia de una línea recta cuando son puestos en una gráfica. El primer paso, antes de que nada, consiste en plasmar en una gráfica los datos de los que disponemos para saber si en efecto existe alguna tendencia (ya sea linear o no linear) de los datos para agruparse siguiendo cierta tendencia, detrás de la cual posiblemente exista alguna relación natural que eventualmente pueda ser expresada con una fórmula sencilla. Si la gráfica de los datos de varios pares de mediciones de dos cantidades variables, una de las cuales tal vez pueda ser variada a voluntad, resulta ser una como la siguiente:



podemos ver que no parece haber ninguna correlación entre los datos graficados. Sin embargo, si la gráfica resulta ser una como la siguiente:



entonces esto ya manifiesta cierta tendencia. Estos datos, supuestamente obtenidos por la vía experimental, casi siempre adolecerán de un error aleatorio (ocurriendo al azar) que denotaremos con la letra griega ε (equivalente a la letra latina "e"). Si no fuese por este error, posiblemente los datos caerían todos en una línea recta o en una curva suave y continua propia del fenómeno que está siendo descrito por los datos. En la última gráfica, resulta tentador trazar "a mano" sobre la misma una línea recta que esté lo más cerca posible de todos los datos, una línea recta como la siguiente:



El problema con un trazado "a mano" de la línea recta es que distintas personas obtendrán distintas líneas según sus propios criterios subjetivos, y posiblemente nadie tendrá la misma recta, no habiendo forma alguna de saber cuál de todas ellas sea la mejor. Es por ello que, con el fin de unificar criterios y obtener una misma respuesta en todos los casos, necesitamos recurrir a un criterio matemático. Este criterio nos lo dá el método de los mínimos cuadrados, desarrollado por el "príncipe de las matemáticas" Carl Friedrich Gauss.

La idea detrás del método de los mínimos cuadrados es la siguiente: si sobre un conjunto de datos en una gráfica que parecen agruparse siguiendo una tendencia marcada por una línea recta se traza una línea recta, entonces de todas las líneas distintas que puedan trazarse podemos tratar de encontrar aquella que produzca "el mejor ajuste" (en inglés esto se llama best fit) de acuerdo a algún criterio matemático. Esta línea pueda ser aquella tal que la "distancia promedio" de todos los puntos en la gráfica hacia esa línea ideal sea la menor distancia promedio posible. Aunque las distancias de cada punto hacia la línea ideal se pueden definir de modo tal que sean perpendiculares a dicha línea, como lo muestra el siguiente dibujo derecho:



la manipulación matemática del problema se puede simplificar mucho si en vez de utilizar tales distancias perpendiculares a la línea ideal utilizamos las distancias verticales según el eje vertical de la gráfica como lo muestra el dibujo izquierdo de arriba.

Aunque podríamos tratar de utilizar los valores absolutos di│de las distancias de cada uno de los puntos i hacia la línea ideal (los valores absolutos eliminan la presencia de valores negativos que promediados con los valores positivos terminarían "cancelando" nuestra intención de obtener un promedio útil), el problema principal es que el valor absoluto de cualquier variable no puede ser diferenciado matemáticamente de una manera convencional, no se presta fácilmente a una derivación matemática mediante los recursos usuales del cálculo diferencial, lo cual es un inconveniente cuando se van a utilizar las herramientas del cálculo para la obtención de máximos y mínimos. Es por ello que utilizamos la suma de los cuadrados de las distancias en lugar de los valores absolutos de las mismas, ya que esto permite tratar a dichas valores, conocidos como residuales, como una cantidad continuamente diferenciable. Sin embargo, esta técnica tiene la desventaja de que al utilizarse los cuadrados de las distancias aquellos puntos aislados que estén muy alejados de la línea ideal tendrán un efecto sobre el ajuste, algo que no hay que perder de vista cuando aparezcan datos aislados en la gráfica que parezcan demasiado alejados de la línea ideal y que posiblemente sean indicativos de un yerro de medición o de un dato mal registrado.

Para una serie de datos que parecen mostrar una tendencia linear, de acuerdo con el método de los mínimos cuadrados se supone desde el principio la existencia de una línea "ideal" que proporciona el "mejor ajuste" (best fit) conocido como "ajuste de mínimos cuadrados" (least squares fit). La ecuación de esta "recta ideal" será:

Y = A + BX

en donde A y B son los parámetros (constantes numéricas) que serán determinados bajo el criterio de los mínimos cuadrados.

Dada una cantidad N de pares de puntos experimentales (X1,Y1), (X2,Y2), (X3,Y3), etc., entonces para cada punto experimental correspondiendo a cada valor de la variable independiente X=X1,X2,X3,...,XN habrá un valor calculado yi= y1,y2,y3,... usando la recta "ideal", el cual será:

y1 = A + BX1

y2 = A + BX2

y3 = A + BX3

.
.
.

yN = A + BXN

La diferencia entre cada valor real de Y=Y1,Y2,Y3,...,YN y cada valor calculado para su correspondiente Xi usando la recta ideal nos dá la "distancia" vertical Di que aleja a ambos valores:

D1 = A + BX1 - Y1

D2 = A + BX2 - Y2

D3 = A + BX3 - Y3

.
.
.

DN = A + BXN - YN

Cada una de estas distancias Di es conocida dentro de las matemáticas estadísticas como el residual.

Para encontrar la recta "ideal", usaremos los procedimientos del cálculo diferencial establecidos para la determinación de máximos y mínimos. Un primer intento nos llevaría a intentar encontrar la recta que minimice la suma de las distancias

S = D1 + D2 + D3 + ... + DN

Sin embargo, este esquema no nos servirá de mucho, debido a que al efectuar los cálculos para determinar el valor de cada distancia Di algunos puntos "reales" quedarán encima de la recta y otros quedarán debajo de la misma, con lo cual algunas de las distancias serán positivas y otras negativas (quizá repartidas en partes iguales) cancelándose de este modo en gran parte sus contribuciones a la construcción de la función que queremos minimizar. Esto nos conduce de inmediato a intentar utilizar los valores absolutos de las distancias:

S = |D1| + |D2| + |D3| + ... + |DN|

Pero este esquema presenta otra dificultad. Cualquier función matemática definida en términos del valor absoluto no es una función continua y por lo tanto continuamente diferenciable. Tratar de maximizar o minimizar una función así nos presenta más problemas que los que nos resuelve. Esto nos lleva a intentar otro esquema en el cual también sumamos las distancias Di pero sin el problema de la cancelación mutua de términos por haber términos positivos como negativos. La estrategia consiste en utilizar los cuadrados de las distancias:

S = D1² + D2² + D3² + ... + DN²

Con esta definición, la expresión general que deseamos minimizar está dada por:

S = (A+BX1-Y1)² + (A+BX2-Y2)² + (A+BX3-Y3)² + ... + (A+BXN-YN

Las incógnitas de la recta ideal que estamos buscando son los parámetros A y B. Con respecto a estas dos incógnitas es como tenemos que llevar a cabo la minimización de S. Si fuese un solo parámetro, una diferenciación ordinaria bastaría. Pero como se trata de dos parámetros, tenemos que llevar a cabo dos diferenciaciones separadas usando derivadas parciales en las cuales diferenciamos con respecto a un parámetro manteniendo al otro constante.

Del cálculo, S será un mínimo cuando las derivadas parciales con respecto a A y B sean cero. Estas derivadas parciales son las siguientes:



La solución de estas ecuaciones nos dá las ecuaciones requeridas:

AN + B Σ X - ΣY = 0

AΣX + BΣX² - ΣXY = 0

en donde estamos utilizando la siguiente simplificación simbólica de la notación:



Las dos ecuaciones las podemos reacomodar de la siguiente manera:

AN + BΣX = ΣY

AΣX + BΣX² = ΣXY

teniendo con esto dos ecuaciones lineares que se pueden resolver como ecuaciones simultáneas ya sea directamente o mediante el método de Cramer (determinantes), obteniendo así las siguientes fórmulas:



De este modo, la substitución de datos en las dos fórmulas nos proporciona los valores de los parámetros A y B que estamos buscando para obtener así la "recta ideal", la recta que nos proporciona el mejor ajuste posible de todas las que podamos trazar bajo los criterios que hemos definido. Puesto que estamos minimizando una función que minimiza la suma de los cuadrados de las distancias (residuales), este método como ya se mencionó es conocido universalmente como el método de los mínimos cuadrados.


PROBLEMA: Dados los siguientes valores, obtener la recta de los mínimos cuadrados:



Para usar las ecuaciones requeridas para obtener la recta de los mínimos cuadrados, resulta conveniente acomodar las sumaciones en una tabla como la que se muestra a continuación:



De esta tabla de resultados intermedios obtenemos:

(ΣY)(Σ) - (ΣX)(ΣXY) = (40)(524) - (56)(364) = 6

NΣXY - (ΣX)(ΣY) = (8)(364) - (56)(40) = 7

NΣX² - (ΣX)² = (8)(524) - (56)² = 11

Y usando las fórmulas arriba obtenidas:

A = [(ΣY)(Σ) - (ΣX)(ΣXY)]/[NΣX² - (ΣX)²] = 6/11

A = .545

B = [NΣXY - (ΣX)(ΣY)]/[NΣX² - (ΣX)²] = 7/11

B = .636

La recta de mínimos cuadrados es entonces:

Y = A + BX

Y = .545 + .636X

La gráfica de esta línea recta superimpuesta sobre los pares de puntos individuales es la siguiente:



Podemos ver que el ajuste es razonablemente bueno. Y, lo más importante, distintos investigadores obtendrán exactamente el mismo resultado bajo el criterio de los míminos cuadrados para este tipo de problemas. Cabe resaltar que la mecanización de la evaluación de estos datos mediante arreglos de columnas como las que fueron utilizadas arriba obteniendo ΣX, ΣY, Σ y ΣXY puede llevarse a cabo en una "hoja de trabajo" como EXCEL.

Para un conjunto numeroso de pares de datos, en otros tiempos estos cálculos solían resultar tediosos y sujetos a equivocaciones. Afortunadamente, con el advenimiento de las calculadoras programables de bolsillo así como programas computacionales que hoy en día pueden realizar en una computadora de escritorio cálculos aritméticos para los cuales hace apenas unas dos décadas requerían computadoras costosas y programas sofisticados en algún lenguaje de programación científica como FORTRAN, estos cálculos se pueden mecanizar a grado tal que en vez de tener que utilizarse cantidades desmedidas de tiempo en la realización de los cálculos el énfasis hoy en día está en el análisis y la interpretación de los resultados.

Cuando sobre una base de datos obtenidos experimentalmente o datos obtenidos de una muestra tomada entre una población queremos estimar el valor de una variable Y que corresponda a cierto valor de otra variable X a partir de la curva de mínimos cuadrados que mejor se ajuste a los datos, se acostumbra llamar a la curva resultante la curva de regresión de Y en X, puesto que Y es estimada de X. Si la curva es una línea recta, entonces llamamos a esa línea la línea de regresión de Y en X. Un análisis llevado a cabo mediante el método de los mínimos cuadrados es llamado también análisis de regresión, y los programas computacionales que pueden efectuar cálculos de mínimos cuadrados son llamados programas de regresión.

Si, por el contrario, en lugar de estimar el valor de Y a partir del valor de X lo que deseamos es estimar el valor de X a partir de Y, entonces usaríamos una curva de regresión de X en Y, lo cual implica simplemente intercambiar las variables en el diagrama (y en las ecuaciones normales) de tal manera que X sea la variable dependiente y Y la variable independiente, lo cual a su vez significa reemplazar las distancias verticales D usadas en la derivación de la recta de mínimos cuadrados por distancias horizontales:



Un detalle interesante es que, por lo general, para un conjunto dado de datos la línea de regresión de Y en X y la línea de regresión de X en Y son dos líneas diferentes que no coinciden exactamente en un diagrama, aunque de cualquier modo están tan cercanas la una de la otra que se podrían confundir.


PROBLEMA: Dado el siguiente conjunto de datos:



a) Obtener la línea de regresión de Y en X, considerando a Y como variable dependiente y a X como variable independiente.

b) Obtener la línea de regresión de X en Y, considerando a X como variable dependiente y a Y como variable independiente.

a) Considerando a Y como la variable dependiente y a X como la variable independiente, la ecuación de la línea de mínimos cuadrados es Y=A+BX, y las ecuaciones normales son:

ΣY = AN + BΣX

ΣXY = AΣX + BΣX²

Llevando a cabo las sumaciones, las ecuaciones normales se convierten en:

8A + 56B = 40

56A + 524B = 364

Simultaneando ambas ecuaciones, obtenemos A=6/11 y B=7/11. Entonces la línea de mínimos cuadrados es:

Y = 6/11 + (7/11)X

Y = .545 + .636X

b) Considerando a X como la variable dependiente y a Y como la variable independiente, la ecuación de mínimos cuadrados es ahora X=P+QY, y las ecuaciones normales serán:

ΣX = PN + QΣY

ΣXY = PΣY + QΣY²

Llevando a cabo las sumaciones, las ecuaciones normales se convierten en:

8P + 40Q = 56

40P + 256Q = 364

Simultaneando ambas ecuaciones, obtenemos P=-1/2 y Q=3/2. Entonces la línea de mínimos cuadrados es:

X = -1/2 + (3/2)Y

X = -0.5 + 1.5Y

Para fines comparativos, podemos despejar esta última fórmula para poner a Y en función de X, obteniendo:

Y = .333 + .667X

Notamos que las líneas de regresión obtenidas en (a) y en (b) son diferentes. A continuación tenemos una gráfica que muestra a ambas líneas:



Un parámetro importante para medir qué tan bien es el "ajuste" de varios datos experimentales a una línea recta obtenida de los mínimos por el método de los mínimos cuadrados es el coeficiente de correlación. Cuando todos los datos quedan situados exactamente sobre una línea recta, entonces el coeficiente de correlación es la unidad, y conforme los datos en una gráfica se van mostrando cada vez más dispersos en relación a la recta entonces el coeficiente de correlación va disminuyendo gradualmente como lo muestran los ejemplos siguientes:



Como una cortesía del Profesor Victor Miguel Ponce, catedrático e investigador en San Diego State University, se encuentran disponibles al público en su página personal en Internet varios programas para mecanizar los cálculos requeridos para "ajustar" conjunto de datos con tendencia linear a una línea de "mínimos cuadrados". La página que proporciona todos los programas es:

http://ponce.sdsu.edu/online_calc.php

bajo el encabezado de "Regression". La página que nos interesa para obtener un ajuste de datos a una línea recta se encuentra en la dirección:

http://ponce.sdsu.edu/onlineregression11.php

Para utilizar el programa citado, introducimos primero el tamaño del arreglo (array), o sea la cantidad de pares de datos, tras lo cual introducimos los valores apareados de datos en forma ordenada empezando primero con los valores de y separados por comas, seguido por los valores de x, también separados por comas. Hecho esto, oprimimos "Calculate" en el extremo inferior de la página, con lo cual obtenemos los valores α y ß para la línea de mínimos cuadrados y=α+ßx, el coeficiente de correlación r, el error estandard de la estimación, así como las dispersiones (desviaciones estándard) σx y σy de los datos xi y de los datos yi.

Como un ejemplo del uso de este programa, obtengamos la línea de mínimos cuadrados para los siguientes pares de datos:

x(1) = 1, y(1) = 5
x(2) = 2, y(2) =7
x(3) = 4, y(3) = 11
x(4) = 5, y(4) = 13
x(5) = 9, y(5) = 21

De acuerdo con este programa, la línea de mínimos cuadrados es:

Y = 3 + 2X

Y el coeficiente de correlación es r=1.0, mientras que el error estándard de la estimación es cero, lo cual como veremos posteriormente nos dice que todos los pares de datos forman parte de la línea de mínimos cuadrados. Si graficamos la línea de mínimos cuadrados y graficamos sobre ella los pares de datos (xi,yi), comprobaremos que efectivamente todos los datos están alineados directamente sobre una recta:



lo cual nos confirma que el criterio matemático que estamos utilizando para obtener la línea de los mínimos cuadrados, la definición que tenemos del índice de correlación r son correctos, y la definición que tenemos del error estándard de la estimación, son correctos.

Hasta aquí hemos considerado un "ajuste de mínimos cuadrados" relacionados con una línea que pudiéramos llamar "ideal" desde el punto de vista matemático, en donde tenemos una variable independiente (causa) que produce una influencia sobre alguna variable dependiente (efecto). Pero se puede dar el caso de que tengamos una situación en la cual los valores que tome cierta variable dependiente se deban no a uno sino a dos o más factores. En tal caso, si la dependencia individual a causa de cada uno de los factores -manteniendo los demás constantes- es una dependencia linear, podemos extender el método de los mínimos cuadrados para cubrir esta situación, tal y como lo hicimos cuando había una sola variable independiente. Esto es conocido como una regresión linear múltiple. Para dos variables X1 y X2, esta dependencia la representamos como Y=f(X1,X2). Si tenemos un conjunto de datos experimentales para una situación como esta, la grafica de los datos se tiene que llevar a cabo en tres dimensiones, y presenta un aspecto como el siguiente:



En esta gráfica, la altura de cada punto representa el valor de Y para cada cada par de valores X1 y X2. Representando los puntos sin mostrar explícitamente las "alturas" de los puntos hacia el plano horizontal Y=0, la gráfica tridimensional toma el siguiente aspecto:



El método de los mínimos cuadrados utilizado para ajustar un conjunto de datos a una recta de mínimos cuadrados también se puede extender para obtener una fórmula de mínimos cuadrados, en cuyo caso para dos variables la ecuación de regresión será la siguiente:

Y = A0 + A1X1 + A2X2

Erróneamente y frecuentemente, esta ecuación es tomada como representando una línea. Sin embargo, no es una línea, es una superficie. Si llevamos a cabo un ajuste de mínimos cuadrados sobre esta fórmula linear con dos factores X1 y X2, obtenemos lo que se conoce como una superficie de regresión, que en este caso es una superficie plana:



Para los datos mostrados arriba, esta superficie de regresión tiene un aspecto como el que se muestra a continuación:



Si queremos obtener las ecuaciones para este plano de mínimos cuadrados, procedemos exactamente de la misma manera como lo hicimos para obtener las fórmulas con las cuales evaluamos los parámetros para obtener la recta de mínimos cuadrados; esto es, definimos las distancias verticales de cada uno de los pares ordenados de puntos hacia este plano de mínimos cuadrados:



Por extensión, los problemas que involucran más de las dos variables X y Y se tratan de una manera análoga a como lo hicimos con dos parámetros. Para obtener las ecuaciones de regresión para dos variables independientes X1 y X2, supóngase que empezamos con una relación entre las tres variables que puede ser descrita mediante la siguiente fórmula:

Y = α + ß1X1 + ß2X2

la cual es una fórmula linear en las variables Y, X1 y X2. Tenemos aquí tres parámetros independientes α, ß1 y ß2. Los valores de Y en esta línea que corresponden a X1=X11,X12,X13, ... ,X1N y X2=X21,X22,X23, ... ,X2N (usamos aquí el subscripto para distinguir cada una de las dos variables X1 y X2, y el superscripto para llevar a cabo eventualmente las sumaciones sobre los valores que hay de cada una de dichas variables) son α+ß1X112X21, α+ß1X122X22, α+ß1X132X23, ... , α+ß1X1N2X2N, mientras que los valores actuales son Y1, Y2, Y3, ... ,YN respectivamente. Entonces, al igual que como lo hicimos con la ecuación de regresión en función de una sola variable, definimos las "distancias" producidas por cada trío de datos experimentales a los valores Yi de modo tal que la suma de los cuadrados de dichas distancias sea:

S = (α+ß1X112X21 - Y1)² + (α+ß1X122X22 - Y2)² + ... + (α+ß1X1N2X2N - YN

Del cálculo, S será un mínimo cuando las derivadas parciales de S con respecto a los parámetros α, ß1 y ß2 sean iguales a cero:



Procediendo como lo hicimos cuando teníamos dos parámetros en lugar de tres, esto nos produce el siguiente conjunto de ecuaciones:

N α + ß1ΣX1 + ß2ΣX2 - ΣY = 0

αΣX1 + ß1ΣX1² + ß2ΣX1X2 - ΣX1Y = 0

αΣX2 + ß2ΣX2² + ß1ΣX1X2 - ΣX2Y = 0

Estas son las ecuaciones normales requeridas para poder obtener la regresión de Y en X1 y X2. Al efectuar los cálculos, nos resultan tres ecuaciones simultáneas de las cuales se obtienen los parámetros α, ß1 y ß2.

Existe una razón por la cual estas ecuaciones son llamadas ecuaciones normales. Si representamos al conjunto de datos correspondiente a la variable X1 como un vector X1 y al conjunto de datos correspondiente a la variable X2 como otro vector X2, considerando que estos vectores son independientes el uno del otro (usando un término del álgebra linear, linearmente independientes, lo cual significa que no son un simple múltiplo el uno del otro apuntando físicamente en la misma dirección), entonces podemos situar a dichos vectores en un plano. Por otro lado, podemos considerar a la suma de los cuadrados de las diferencias Di usadas en la derivación de las ecuaciones normales también como la magnitud de un vector Di, recordando que la longitud cuadrada de un vector es igual a la suma de los cuadrados de sus elementos (teorema de Pitágoras extendido a n dimensiones). Esto hace que el principio del "mejor ajuste" sea equivalente a buscar aquél vector diferencia Di que corresponda a la menor distancia posible hacia el plano formado por los vectores X1 y X2. Y esa menor distancia posible es un vector perpendicular o vector normal:



al plano definido por los vectores X1 y X2 (o mejor dicho, al plano formado por la combinación linear de los vectores ß1X1+ß2X2).

Aunque podemos repetir aquí las fórmulas que corresponderán al caso de dos variables X1 y X2, habiendo entendido lo que es un "plano de míminos cuadrados" podemos recurrir a uno de muchos programas computacionales disponibles comercialmente o a través de Internet. La página personal del Profesor Victor Miguel Ponce citada arriba nos ofrece los medios para poder llevar a cabo un "ajuste de mínimos cuadrados" cuando se trata del caso de de dos variables X1 y X2, accesible en la siguiente dirección:

http://ponce.sdsu.edu/onlineregression13.php


PROBLEMA: Obtener la fórmula del plano que mejor se ajusta a la representación del siguiente conjunto de datos:



Estos datos, representados en tres dimensiones, muestran el siguiente aspecto:



Para este conjunto de datos, la fórmula que corresponde a la superficie de regresión es la siguiente:

Y = α + ß1X1 + ß2X2

Y = 9.305829 + 0.787255 X1 - 0.04411 X2

A continuación tenemos un gráfico animado de la regresión linear múltiple en X1 y X2 representada por la fórmula:

Y = -2X1 + 2X2

en el cual X1 y X2 son variados desde -10 hasta +10 y la gráfica tridimensional es rotada girándola alrededor del eje Y, razón por la cual este tipo de gráficas son conocidas con el nombre de "spin plot" (es necesario ampliar la imagen para poder ver la acción animada):



El modelaje que hemos llevado a cabo se puede extender a tres variables, a cuatro variables, etc., y podemos obtener una ecuación de regresión linear múltiple:

Y = ß0 + ß1X1 + ß2X2 + ß3X3 + ß4X4 + ß5X5 + ... + ßNXN

Desafortunadamente, para más de dos variables ya no es posible hacer un graficado multi-dimensional, y en vez de confiar en nuestra intuición geométrica tenemos que confiar en nuestra intuición matemática. Después de cierta práctica, podemos abandonar nuestra dependencia en representaciones gráficas extendiendo lo que aprendimos hacia un mundo multi-dimensional aunque no nos sea posible poder visualizar lo que está ocurriendo, dando el paso crucial de generalización o abstracción que nos permite prescindir de los detalles particulares y aún así poder continuar trabajando como si nada hubiera pasado.

Una cosa importante que no hemos mencionado aún es que, para el caso de dos variables (así como más de tres variables), no hemos tomado en cuenta los posibles efectos de interacción que pueda haber entre las variables independientes. Estos efectos de interacción, que se dan con cierta frecuencia en el campo de las aplicaciones prácticas, se pueden modelar en su caso más sencillo con una fórmula como la siguiente:

Y = ß0 + ß1X1 + ß2X2 + ß12X1X2

Cuando no hay interacción alguna entre las variables , el parámetro ß12 mostrado en esta fórmula es cero. Pero si hay algún tipo de interacción, dependiendo de la magnitud del parámetro ß12 con respecto a los demás parámetros ß0, ß1 y ß2 esta interacción podría ser de tal magnitud que inclusive podría nulificar la importancia de los términos variables ß1X1 y ß2X2. Este tema por sí solo es lo suficientemente amplio como para requerir ser tratado por separado en otra sección de esta obra.