Definición de Análisis de Datos
Doctor en Psicología
Se entiende por análisis de datos al conjunto de procesos que tienen por objetivo resumir y organizar datos para extraer información y elaborar conclusiones a partir de técnicas estadísticas. Justamente, los modelos probabilísticos de la estadística permiten a los y las investigadoras superar la incertidumbre y explicar la mayor parte del fenómeno de estudio, y así, lograr elaborar predicciones. Por supuesto que, debido a que el análisis de datos se fundamenta en la probabilidad y la estadística, siempre existirá un grado de error o elementos no controlables por el diseño del estudio (si se desea profundizar en ese tema, en Significado puede encontrarse un texto de dedicado al error de medición).
En su libro, Pensar rápido pensar despacio, Daniel Kahneman, concluye que incluso las personas con mayor experticia en un campo tienden a equivocarse cuando intentan realizar predicciones. Kahneman, considera que esto es realidad parte de la naturaleza que en un mundo improbable sería un error culpar a alguien por fracasar en sus predicciones. ¿Con esto quiero decir que nadie puede predecir fenómenos?, pues si y no, realmente es más complejo que eso. La ciencia tiene por objetivo intentar predecir el comportamiento de sus objetos de estudio, sin embargo, la manera en que lo hace cambia un poco. Así en las ciencias formales, como la química o la física, se emplean modelos algebraicos para realizar dichas predicciones, puesto con sus objetos de estudios son más “estables”. Sin embargo, en las ciencias sociales, particularmente hablando de comportamiento humano, esto es más complejo debido a la cantidad de fenómenos que interactúan al mismo tiempo (justo a lo que se refería Kahneman). Es así que mientras en condiciones deterministas es factible usar un modelo algebraico para predecir conductas, en condiciones aleatorias es más adecuado emplear el análisis de datos debido a que se intenta controlar la incertidumbre que causa dicha aleatoriedad.
Estadística
La estadística es una ciencia que se deriva de las matemáticas y que se encarga de recoger, ordenar y analizar los datos de una muestra representativa perteneciente a una determinada población, con el objetivo de realizar inferencias acera de esa población.
Estadística descriptiva
La estadística se clasifica en dos tipos, la primera es la estadística descriptiva y consiste en todos aquellos procedimientos que tienen la tarea de describir la información contenida en una muestra. En el análisis de datos es la parte que se encarga de resumir y organizar los datos.
Estadística inferencial
El otro tipo de estadística involucra los procedimientos que permiten realizar generalizaciones (inferencias) de la información contenida en una muestra a una población. En el análisis de datos conforma la parte de extraer información y elaborar conclusiones.
Población y muestra
Población
En estadística se entiende por población a todos los elementos que componen el universo de nuestro objeto de estudio. Por ejemplo, si tenemos el objetivo de estudiar pacientes diabéticos, nuestra población estaría compuesta con todos los pacientes diabéticos del mundo.
Muestra
Al considerar la definición de población queda claro que es muy complejo trabajar o incluso acceder a la totalidad de la población. Por lo tanto, se debe trabajar con muestras las cual es un subconjunto de los elementos de una población. Retomando el ejemplo anterior, podríamos considerar únicamente a los pacientes diabéticos de un país determinado. En este sentido, existen dos formas de obtener una muestra:
• Muestra probabilística. Se aplica cuando es posible conocer la probabilidad asociada a cada una de las muestras que se pueden extraer de una población. Se caracteriza por 1) ser representativa de la población, 2) todos los elementos de la población tienen la misma probabilidad de ser seleccionados para la muestra y 3) cada dato extraído es independiente del resto.
• Muestra no probabilística. No se conoce o la probabilidad asociada a cada posible muestra. No siempre alcanza a ser representativa de la población. De hecho, queda a la interpretación del investigador o investigadora que características deben contener los elementos para ser parte de la muestra. Aunque es menos rigurosa, es la más común.
Variables
Son representaciones numéricas de una característica o atributo que es sometido a un proceso de medición. Pueden ser clasificadas por su rol en el estudio, por sus características o por su nivel de medición.
Por su rol
• Variable independiente: Es la variable que el investigador controla y que busca determinar como influye en la variable dependiente.
• Variable dependiente: Es la que se busca determinar su comportamiento en presencia de otras variables. No es posible controlarla.
• Covariable: Es una “tercera” variable que puede alterar la relación entre la variable dependiente e independiente. Aunque se le llama tercera variable, no se reduce solo a una variable, pueden ser varias.
Por sus características
• Variables categóricas: son variables que agrupan un número finito de elementos (o categorías) que no presentan un aparente orden lógico o jerárquico.
• Variable cuantitativa: son variables que incluyen un número infinito de elementos y que tienen un orden lógico y jerárquico.
Por su nivel de medición
• Variables nominales. Se emplean para clasificar en grupos los objetos que han sido medidos. Estos grupos son equivalentes entre sí.
• Variables ordinales: Se emplean para asignar a los objetos de medición una característica que permita ordenarlos según la cantidad de atributos que posee. Aunque hay un ordenamiento, los intervalos que se emplean para realizar tal proceso no es conocido.
• Variable intervalar: Es similar al nivel ordinal con la diferencia de que aquí si se conoce la distancia en los intervalos que se emplean para ordenarlos.
• Variable de razón. Involucra todas las características anteriores, pero incluye un cero absoluto. Dicho cero absoluto significa ausencia del atributo a medir.
Técnicas descriptivas
Para aplicar estas técnicas se deben conocer tres características de una muestra.
• Centro: Indica que valor presenta mejor al resto de los datos.
o Involucra las medidas de tendencia central como la media, mediana y moda.
• Dispersión: Se refiere a la concentración o alejamiento de los valores con referencia al centro.
o Incluye la varianza y la distribución estándar.
• Forma/Distribución: Frecuencia con la que se repite cada valor o cada rango de valores.
o Involucra a la asimetría y curtosis de una muestra.
Técnicas inferenciales
Es posible categorizar estos análisis en dos grandes familias:
• Análisis de relación. Marca la dinámica que presentan dos o más variables. Incluye análisis de correlación y de regresión.
• Análisis de comparación. Determina en que se diferencian dos o más grupos con respecto a una variable. Incluyen análisis de comparación de medias y de varianza.
Trabajo publicado en: Oct., 2024.
Referencias
Pardo, A., & San Martín, R. (2010). Análisis de datos en ciencias sociales y de la salud II (1st ed.). Síntesis.Escriba un comentario
Contribuya con su comentario para sumar valor, corregir o debatir el tema.Privacidad: a) sus datos no se compartirán con nadie; b) su email no será publicado; c) para evitar malos usos, todos los mensajes son moderados.