jueves, 20 de marzo de 2008

8: El modelaje de efectos de interacción




En todas las fórmulas usadas previamente en las cuales hemos tenido una variable dependiente Y y dos o más variables independientes X1, X2, X3, etc., de la forma:

Y = ß0 + ß1X1 + ß2X + ß3X33 + ...

hay algo que no ha aparecido hasta el momento: términos que contengan el producto de las variables independientes.

Los términos con el producto de dos o más variables nos indican que hay un nuevo fenómeno que nuestros modelos anteriores no habían considerado: efectos de interacción. Existe interacción entre dos variables X1 y X2 cuando al variar ambas se produce un efecto no-linear en la respuesta Y, algo como lo que nos muestra la siguiente gráfica:



En esta gráfica, podemos ver que cuando variamos X1 de X1=1 a X2=7 manteniendo a X2 con un valor constante de X2=3, la respuesta Y varía cayendo de Y=2 a Y=1. Pero cuando repetimos el experimento cambiando el valor de X2 de X2=3 a X2=7, al variar nuevamente X1 de X1=1 a X1=7 la respuesta Y no disminuye, sino que por el contrario, aumenta, de Y=4 a Y=6. El efecto de la variable X2 no es simplemente aditivo, existe un término de interacción entre ambas variables X1 y X2.

Los efectos de interacción son muy frecuentes en muchos campos y dan origen a preguntas como:

El efecto de la interacción entre dos variables X1 y X2 puede ser de tal magnitud que inclusive puede opacar a los efectos principales en todo el rango de interés. Tal es el caso de un conjunto de datos que sean representados por una fórmula como la siguiente:

Y = aX1b1 ∙ X2b2

Esta es una fórmula no-linear, y por lo tanto no parecería ser muy amena a un ajuste de datos mediante el método de los mínimos cuadrados. Sin embargo, podemos llevar a cabo una linearización de la misma usando el socorrido truco de tomar logaritmos. En este caso:

ln Y = ln(aX1b1 ∙ X2b2)

ln Y = ln(a) + ln(X1b1) + ln(X2b2)

ln Y = ln(a) + b1lnX1 + b2ln(X2)

Nuevamente, podemos aplicar aquí el método matricial general para llevar a cabo un ajuste del conjunto de datos a la fórmula. Podemos también utilizar la calculadora estadística que para este modelo en particular el Profesor Victor Miguel Ponce de San Diego State University tiene puesta a la disposición de la comunidad académica mundial en la siguiente dirección:

http://ponce.sdsu.edu/onlineregression14.php


PROBLEMA: Dados los siguientes datos proporcionados en orden respectivo:

Y = 89,75,57,34,101,121,68,79,25,59,96,12

X1 = 3245,2567,2783,1234,5345,5329,3002,2976,1034,2984,3892,534

X2 = 0.008,0.011,0.009,0.015,0.006,0.007,0.008,0.010,0.018,0.010,0.007,0.020

obtener los parámetros a, b1 y b2 requeridos para ajustar los datos a la fórmula Y=aX1b1X2b2.

Usando la calculadora online del Profesor Victor Miguel Ponce, obtenemos de inmediato:

a = 0.038671

b1 = 1.176878

b2 = 0.46380

con los cuales la fórmula ya ajustada numéricamente a los datos resulta ser:

Y = 0.038671X11.176878X20.46380

Descubrir efectos de interacción requiere no sólo recabar datos, sino también saber cómo recabarlos. Cuando los experimentos se conducen factor por factor (las variables de control que han sido seleccionadas para llevar a cabo un experimento son llamadas factores) cambiando el nivel de un factor a la vez manteniendo todos los demás factores a un nivel constante, los efectos de interacción no pueden ser investigados. Esto requiere que antes de llevarse a cabo un experimento éste tiene que estar bien diseñado. Este es precisamente el propósito del campo del diseño de experimentos. En la última gráfica de arriba que muestra los efectos de interacción, si hubiéramos tenido únicamente los valores correspondientes a los pares de datos (X1,X2)=(1,3) y (X1,X2)=(7,3) que equivale a efectuar el experimento variando X1 manteniendo X2 constante, así como (X1,X2)=(1,3) y (X1,X2)=(1,7) que equivale a efectuar el experimento variando X2 manteniendo X1 constante, es imposible descubrir efecto de interacción alguna; la interacción en este caso sólo puede ser descubierta variando ambos X1y X2, lo cual en este ejemplo equivale a obtener la respuesta de Y para un par adicional de datos, el par (X1,X2)=(7,7). Sin este par adicional, borrándolo de la gráfica, las dos líneas que podríamos trazar sobre dicha gráfica, que van de (X1,X2)=(1,3) a (X1,X2)=(7,3) y de (X1,X2)=(1,3) a (X1,X2)=(1,7)) no nos darían ni la más remota pista de que hay una interacción presente. Esta es la razón fundamental por la cual al diseñar un experimento (al cual podemos designar experimento 0) en el que hay dos variables de control X1 y X2, con la intención de descubrir la existencia de efectos de interacción e inclusive la existencia de un punto óptimo en un proceso, escogemos cuatro pares de datos X1 y X2 distintos, posiblemente situados en los vértices de un cuadrado. Con la información obtenida de éste cuádruple, podemos diseñar un segundo experimento (al cual podemos designar experimento 1) usando como vértice del segundo "cuadrado" el punto óptimo (máximo o mínimo) que haya resultado del cuádruple anterior, continuando tras esto con un experimento 2 y después con un experimento 3, repitiendo el procedimiento gradualmente hasta acercarnos al punto óptimo de un proceso en la forma en la cual lo muestra el siguiente diagrama:



Esta es precisamente la idea que está detrás de una técnica del diseño de experimentos conocida como la operación evolutiva (evolutionary operation o EVOP) desarrollada en los años cincuenta por el estadístico George E. P. Box.

Para poder visualizar los efectos de interacción cuando hay dos variables independientes X1 y X2 involucradas, utilizamos las gráficas conocidas como gráficas del contorno (contour plots). En estas gráficas que guardan un parecido con el plano Cartesiano bidimensional, asignamos uno de los ejes a una de las variables (X1) y el otro eje a la otra variable (X2), y unimos puntos en los cuales la variable dependiente Y tiene el mismo valor (por ejemplo, Y=9). Algunos programas computacionales destacan en las gráficas generadas estas curvas de nivel "pintando" de diferentes colores las regiones situadas entre una curva de nivel y otra. A continuación, para la siguiente expresión:

Y = 3X1 + 2X2 - X1 ∙ X2

se muestra la gráfica del contorno:



En esta gráfica hay un punto extremo, el cual podemos obtener fácilmente mediante los procedimientos del cálculo, tomando las derivadas parciales de Y con respecto a X1 y X2 e igualando dichas derivadas parciales a cero:



A continuación tenemos la gráfica de contorno para la misma fórmula con la excepción de que al término de interacción XY le estamos dando muy poco peso al multiplicarlo por una constante numérica ß12=0.01; o sea:

Y = 3X1 + 2X2 - 0.01X1 ∙ X2




Al hacer al término de interacción muy pequeño dentro de la región que está siendo considerada, la fórmula se reduce esencialmente a:

Y = 3X1 + 2X2

Las curvas de nivel dan una apariencia casi de líneas rectas; se tiene que observar la gráfica con detenimiento para darse cuenta de que hay una pequeña curvatura introducida por el término ß12=0.01. Esta gráfica es típica de las gráficas en las cuales los efectos de interacción entre dos o más variables independientes son muy pequeños o inexistentes, las cuales contienen líneas rectas.

Por otro lado, a continuación tenemos una gráfica del contorno para la fórmula haciendo el término de interacción X∙Y bastante pronunciado al multiplicarlo por la constante numérica ß12=10; o sea:

Y = 3X1 + 2X2 - 10X1 ∙ X2




Y por último, tenemos la gráfica de la fórmula original en la cual le estamos dando al efecto de interacción un signo positivo en lugar de un signo negativo:

Y = 3X1 + 2X2 + X1 ∙ X2




En este último caso, tomando las derivadas parciales de Y con respecto a X1 y X2 e igualándolas a cero, encontramos que el punto extremo está situado en X1=-2 y X2=-3. Si X1 y X2 representan variables como el volumen, la presión arterial o el número de habitantes, entonces tal punto con valores negativos carecerá de significado físico. Si hemos de hablar de un punto extremo aquí, tal punto extremo será el que está situado en X1 =0 y X2=0 que es en donde Y adquiere su valor mínimo.

En todos los modelos de los ejemplos que acabamos de ver, para valores suficientemente grandes de las variables X1 y X2 tales que el producto de ambas multiplicadas por el parámetro ß12 empiece a igualar los valores tomados por las términos X1 y X2 solos, los efectos de interacción empezarán a mostrarse.

Suponiendo la plena validez de la ley causa-efecto, además de la simple interacción multiplicativa X∙Y que hemos visto y que es conocida como interacción linear-linear, existen varios tipos de interacción posibles, tales como los producidos por los siguientes términos en el modelo que se está utilizando:

X1² ∙ X2 » Interacción cuadrática-linear

X1 ∙ X2² » Interacción linear-cuadrática

X1²X2² » Interacción cuadrática-cuadrática

X1 ∙ X2 ∙ X3 » Interacción linear-linear-linear

X1² ∙ X2 ∙ X3 » Interacción cuadrática-linear-linear

X1 ∙ X2² ∙ X3 » Interacción linear-cuadrática-linear

X1 ∙ X2² ∙ X3 » Interacción linear-linear-cuadrática

en donde en los últimos tres términos hemos supuesto la presencia de tres variables independientes capaces de interactuar entre sí en los términos mostrados.

Dadas las dificultades para poder visualizar las relaciones que toman lugar cuando estamos manejando o modelando fórmulas que involucran regresiones múltiples que contienen términos de interacción, el Departamento de Matemáticas y Estadística de la Universidad York en Ontario, Canadá, ha puesto a disposición de sus alumnos y de la comunidad académica mundial una página que se puede descargar del siguiente domicilio:

http://www.math.yorku.ca/SCS/spida/lm/visreg.html

De esta página se ha tomado un archivo que grafica en tres dimensiones una fórmula que contiene un término en X2 y el término de interacción X1X2 (en la página de donde fue tomado se puede apreciar el archivo en forma animada):




Por otra parte, en la división Academic Technology Services (ATS) de UCLA se ha puesto a la disposición de la comunidad académica mundial la siguiente página:

http://www.ats.ucla.edu/stat/sas/teach/reg_int/reg_int_cont.htm

en la cual se comienza con el trazo tridimensional de una superficie de respuesta (llamada "spin plot" por ser un gráfico tri-dimensional animado que está "girando", rotando alrededor del eje Y) para la cual todos los parámetros α, ß1, ß2 y ß12 correspondientes a la fórmula:

Y = α + ß1X1 + ß2X2X2 + ß12X1X2

son cero (lo cual se traduce en una superficie plana Y=0 para todos los valores de X1 y X2), tras lo cual se progresa hacia una gráfica en la cual se le dán a la fórmula en forma dinámica valores cambiantes de ß1 manteniendo todos los demás parámetros con valor cero, tras lo cual se progresa hacia otra gráfica en la cual se le dán a la fórmula en forma dinámica valores cambiantes de ß12 correspondientes al término de interacción manteniendo todos los demás parámetros en valor cero, así como otras variantes de esto. Una gráfica que vale la pena ver es la última que grafica la superficie de respuesta:

Y = 30 + 3X2 - 0.4X12 + 0.7X12X2 + ß12X1X2

en la cual se varía ß12 por varios valores positivos que van desde cero hasta ß12=0.4.

El modelaje con fórmulas que involucran términos de interacción se puede llevar a cabo recurriendo a la técnica de los polinomios ortogonales que es tratada en otra sección de esta obra.