Definición de Modelo Lineal (en Matemática/Estadística)
Doctor en Psicología
En el contexto de la estadística y el análisis de datos, un modelo lineal se refiere a una ecuación matemática que se emplea para representar de manera sintetizada la relación existente entre dos o más variables, típicamente una variable independiente y una dependiente, a los resultados de esta estimación se les conocerán como parámetros.
Aunque a los seres humanos nos gusta explicar los acontecimientos diarios de manera simple, tratamos de hacerlo en función de la relación de dos variables. Por ejemplo, ¿hubo un tiroteo escolar?, cuya respuesta trata de simplificarse y, en varios momentos de la historia, se dictaminó que los videojuegos violentos serían el factor responsable, pero la realidad es más complicada que eso. Daniel Kahneman describe que el comportamiento humano es tan complejo, pues intervienen múltiples variables en el desarrollo de estos fenómenos, que se requiere de las técnicas que se emplean en el análisis de datos para poder explicar la relación de estas variables de manera parsimoniosa, entre estas técnicas se encuentra los modelos lineales. Si bien se puede modelar múltiples relaciones, la forma más fácil de entenderlas es mediante una relación lineal, donde los parámetros estimados se interpretan como una constante fija.
Un modelo lineal tiene la intención de describir cuál será el valor de una variable dependiente en función del efecto que produce un conjunto de factores que el investigador considera, los cuales constituyen las variables independientes del estudio; además de otro conjunto de factores que no considera, ya sea porque no interesa conocer su influencia o porque no se tiene los medios para hacerlo, en algunas ocasiones se puede controlar el efecto de estas variables, adquiriendo así el nombre de covariables. No obstante, los y las investigadoras están conscientes de que, aunque se controle el efecto de las covariables, siempre hay elementos que escapan del análisis, los cuales son identificados como el error.
Por ejemplo, si quisiéramos estudiar el sobrepeso y la obesidad, nuestra variable dependiente debería ser un indicador de este, por ejemplo, el Índice de Masa Corporal (IMC), nuestra variable independiente podría ser los hábitos alimenticios, por su parte, una covariable podría ser la edad, y recordemos que siempre quedará el error, es decir, fenómenos que no podemos controlar.
Componentes de los modelos lineales
Las dos técnicas más representativas de los modelos lineales son el análisis de regresión lineal y el análisis de varianza (ANOVA), en esta misma plataforma es posible encontrar dos textos que profundizan en dichas técnicas. Sin embargo, sin importar cuál de estos dos se este empleando, de sus fórmulas se desprenderán tres componentes esenciales.
Componente aleatorio: Este se refiere a la variable dependiente del modelo, o bien las respuestas que nos entregan nuestros participantes, y en esencia es una distribución de probabilidad. De este modo, los parámetros dependerán de la naturaleza de la variable dependiente. Siendo más específicos, si la variable dependiente es continua, su distribución se asumirá como normal, si nuestra variable es dicotómica responderá una distribución de Bernoulli o binomial, finalmente si nuestra variable es ordinal, la distribución debe considerar números negativos, por lo que se debe recurrir a una distribución de Poisson.
Componente sistemático: incluye a las variables independientes del modelo, las cuales se asume que se mantienen constantes; y también suele ser conocido como predictor lineal. Se asume que un cambio en este componente provocará un cambio lineal en el componente aleatorio. A diferencia del componente anterior, la naturaleza de la variable no representa un cambio significativo en la distribución, por lo que admite variables categóricas e independientes, en incluso variables transformadas.
Función de enlace: Este se refiere a la manera en que se relacionan los componentes sistemáticos y los aleatorios. Dicho de otra manera, indica como se relaciona el predictor lineal con los pronósticos del modelo (es decir, la variable dependiente). En una distribución normal, se utilizará un enlace de identidad, si se usa una distribución binomial se deberá emplear un enlace logit y finalmente si se emplea una distribución de Poisson se emplea un enlace logarítmico.
Clasificación de los modelos lineales
Tomando en cuenta los componentes previamente descritos se pueden clasificar los modelos lineales en tres categorías.
• Modelo lineal clásico: comprende a los análisis de regresión, análisis de varianza o covarianza (estos últimos pueden ser conocidos también como modelos lineales generales y no deben ser confundidos con los modelos lineales generalizados) y se emplean típicamente para modelar respuestas cuantitativas.
• Modelos lineales mixtos: Incluye a los análisis de varianza con efectos aleatorios y de efectos mixtos, o bien a los modelos de regresión multinivel. Son similares a los clásicos, dado que permite modelar respuestas cuantitativas, aunque la diferencia es que pueden modelar más de un término de error.
• Modelos lineales generalizados: Aborda la regresión logística, regresión de Poisson, y más versiones de la regresión no lineal. Se emplean para modelar respuestas no cuantitativas, o categóricas.
Trabajo publicado en: Feb., 2024.
Referencias
Pardo, A. & Ruiz, M.A. (2012) Análisis de datos en ciencias sociales y de la salud III. Editorial SíntesisEscriba un comentario
Contribuya con su comentario para sumar valor, corregir o debatir el tema.Privacidad: a) sus datos no se compartirán con nadie; b) su email no será publicado; c) para evitar malos usos, todos los mensajes son moderados.