PDA

Ver la versión completa : Seleccionar el mejor modelo de regresión [ESTADÍSTICA]



gagu
25/06/2005, 08:05
HOLA A TODOS.

Tengo el siguiente problema: tengo que seleccionar el mejor modelo de regresión para una "paquete" de datos, pero de entre dos que ya hice: un modelo simple (solo efectos principales, o sea, lineal en las variables explicativas) y un modelo que incorporalos efectos cuadráticos e interacciones de las variables explicativas.

Para ello, tengo que utilizar el test F, que es algo así como la diferencia de las sumas cuadráticas de los errores (bajo una X característica dada por el número de restricciones) dividida entre "otra" suma cuadrática del (algún) error y otro coeficiente.

Sin decirlo explícitamente, creo que ya he puesto en evidedncia mi problema: no sé a qué (modelo) corresponden cada uno de los factores que dan este test, ni tampoco "contra qué" debo comparar este test para saber cuál es el mejor modelo.

Espero haber sido muy claro. Cualquier ayuda es de antemano muy agradecida, pues estoy estancado en esto y, por más que he buscado en la internet, no he podido salir de esto. :(

Salu2 y muchas gracias!!! :-P

leach
25/06/2005, 08:49
Si no me equivoco, lo que quieres decir es que tienes que hacer un contraste de hipótesis sobre si la varianza de tu modelo de regresión y la de la muestra son iguales. La idea es contrastar la hipótesis de que el cociente entre la varianza muestral de los valores que te dan, y los que obtienes en la regresión, es igual a 1, con un cierto grado de verosimilitud. Este cociente es la F de la que hablas.

Si no me equivoco, la probabilidad de que F sea en valor absoluto más grande que una cantidad depende de una integral beta. Creo que este contraste de hipótesis viene en casi todos los libros de estadística, y no tienes más que usarlo para analizar la bondad de tu ajuste. De todos modos, repasaré el tema, porque lo tengo bastante olvidado.

Un saludo.

gagu
26/06/2005, 02:08
Muchas gracias leach.

Pero el problema es que debo mostrar usando ese "test F" cuál es el mejor modelo a elegir. De los dos modelos, ya sé cuál es el mejor (el análisis de la varianza fue MUY concluyente al respecto), pero aún no sé cómo corroborar tal situación con este famoso test que ocupa las sumas cuadráticas de los errores y los grados de libertad de los modelos.

Soy de Chile, y el próximo lunes (27 de junio) es festivo en mi país, por lo que no tengo sino hasta después del martes la posibilidad de aprovechar la biblioteca de mi universidad. Por lo anterior, agradedcería si alguien me`pudiese recomendar algún sitio de internet para seguir buscando, puesto que hasta ahora no he encontrado (casi) nada que me sea de utilidad para la particularidad que busco.

Una vez más, muchas gracias. :wink:

leach
26/06/2005, 03:04
He estado pensando en ello, y la cosa depende mucho de las variables aleatorias que intervengan.

Lo que recordaba de memoria se refería a la F de Snedecor, que el el cociente de dos ji-cuadrado independientes, con arbitrarios grados de libertad. Es decir, esta F representa la distribución del cociente de las varianzas muestrales de dos muestras normales, con arbitrario número de observaciones (grados de libertad).

En tu problema creo que no tienes esa situación, o al menos eso he entendido de tu explicación inicial: tus variables aleatorias no son normales, y al menos una de ellas es algo parecido a una regresión. No sé la F de snedecor es adecuada para este caso.

No se me ocurre niguna referencia en internet, y en mi bilioteca no tengo libros muy avanzados de estadística, puesto que me especialicé en geometría. De todos modos, prueba con la referencia canónica de este foro de matemáticas: http://mathworld.wolfram.com/ Busca algo así como Snedecor, o F-test, o algo semejante, y mira a ver si dicen algo. Sigue los links, y busca las palabras clave en google. No se me ocurre nada mejor.

:h:

gagu
26/06/2005, 05:03
Gracias nuevamente...

Ya habí aaterrizazdo en ese sitio, pero el soporte que tiene en el área de las probabilidades y la estadística no incluye la elección/comparación de modelos según precisión y efectividad.

Lo que dices sobre la distro de Snedecor es cierto, pero como tú mismo apuntas, el problema que tengo no va por ahí, puesto que lo que busco no es analizar la relación entre dos muestras, sino que para un sola muestra encontrar cuál es el modelo de regresión que mejor la explica.

En estricto rigor lo que tengo inicialmente es una muestra de datos, sobre la cual no puedo suponer (porque no me dejan :( ) ninguna hipótesis, incluida la normalidad. Para esta muestra tengo que ajustar variados test, y luego mostrar cuál es el que conviene tomar. Es para esto último que necesito el (a estas alturas ingrato) test F.

Lo peor, es que como se me han dado las cosas, todo indica que la solución debe ser trivial, y por eso se esconde de mí... :( :???: :-o :-P

En todos los casos, muchas gracias leach por tu tiempo. Cualquier ayuda se sigue agradeciendo inmensamente.

Salu2. 8) :lol:

leach
26/06/2005, 09:35
Volviendo a pensar en esto, creo que puedes descartar el test de Snedecor. He visto varias referencias que dicen que la F de Snedecor falla miserablemente cuando se aplica a variables no normales (es poco robusto). Hay alternativas (he leído algo acerca del F-test de Klotz, entre otros), pero parecen temas bastante especializados.

En realidad, puede que la cosa sea más directa que usar Snedecor. Supongamos que te dan los datos:

\xi_1, \xi_2, \ldots, \xi_n

que son independientes y corresponden a una misma variable aleatoria, que es desconocida.

Entonces tú propones una cierta variable aleatoria \Xi, usando algún método (regresión, etc.). Se me ocurre que la marena más natural de aplicar el test F sería la siguiente. Define:

F \quad = \quad \frac{\frac{1}{n}\sum_{i=1}^{n}\, \xi_i^2}{\mathbf{E}\left(\Xi^2\right)}

Como conoces la variable \Xi, conoces su varianza a la perfección. Luego en lugar de calcular el cociente de dos muestras, calculas el cociente entre la suma de los cuadrados de la muestra y el segundo momento de tu variable.

La función de distribución de esta F es sencilla de especificar:

F \quad = \quad \frac{1}{n\, \mathbf{E}^2}\sum_{i=1}^{n}\, \Xi_i^2

El análogo a una ji-cuadrado, pero para tu distribución que ahora conoces. He llamado \mathrm{E}^2 al segundo momento de \Xi. Si la variable aleatoria que tienes es reproductiva, podrás encontrar la distribución con facilidad. En otro caso, me temo que tendrás problemas para hacer el cálculo exacto. Si la muestra es muy grande, quizás puedas aplicar el teorema central del límite y pegar un cambiazo por una normal en algún punto.

Esto es lo que se me ocurre. Pero cuidado, que no tengo mucha idea del tema.