Análisis exploratorio de datos
El análisis exploratorio de datos permite revisar de manera dinámica y optimizada los datos recolectados.
facultad de educación
mar. 19 de oct. 2021
0

A lo largo de este artículo se va a mostrar cómo, a través de la visualización y la modificación, se pueden transformar los datos de manera sistemática. A este proceso se le denomina Análisis Exploratorio de Datos (AED). El análisis exploratorio de datos o estadística descriptiva tiene como objetivo organizar, sintetizar, describir y visualizar la información, este cumple con la finalidad de realizar la revisión de los datos antes de la aplicación de cualquier técnica estadística con el objetivo de tener una información básica de estos y de la relación que hay entre las variables analizadas.

La estadística descriptiva se ocupa de recoger, ordenar y representar los datos en tablas, calculando estadísticos basados en la distancia y con valores establecidos en la media o promedio. El análisis exploratorio de datos se interesa por buscar, en las distribuciones univariadas de los datos, anomalías en los patrones o modelos, para ello, se apoya de varias técnicas gráficas y busca estimadores no paramétricos. Las características que hacen que el análisis de datos exploratorio sea un tema interesante para el/la investigador/a de educación son las siguientes:

  • Permite generar situaciones de aprendizaje, en las cuales el alumnado tiene interés de estudiar.
  • Se apoya en las representaciones gráficas de los datos para desarrollar nuevas perspectivas.
  • Tiene una teoría matemática elemental, no muy compleja y se apoya de gráficos fáciles de realizar.

A lo largo del desarrollo de este tema, se va a tratar la definición, las etapas y las representaciones gráficas más apropiadas para realizar un AED. Por último, se realizará el análisis exploratorio de datos a través de la herramienta informática estadística SPSS, teniendo en cuenta que los programas estadísticos van a ofrecer muchas posibilidades al AED, ya que, al obtener varias representaciones gráficas, facilitan la obtención de más información.

Definición de análisis exploratorio de datos

El Análisis Exploratorio de datos (en adelante AED) o estadística descriptiva, fue desarrollado, en los años ‘70 del siglo XX, por el estadístico estadounidense John Tukey (1915-2000). El AED ayuda a organizar la información de los datos, aunque sus técnicas son muy útiles para predecir y tomar decisiones. El AED o estadística descriptiva se define como el procedimiento para recoger información, descripción y análisis de un grupo de datos, ver sus características más relevantes y presentar la información utilizando métodos numéricos y gráficos.

El objetivo del AED es obtener información básica de los datos y las relaciones que existen entre las variables analizadas. El AED es un procedimiento de análisis descriptivo para resumir la información de una distribución de frecuencias de una variable cuantitativa con un mínimo de pérdida de información y detectando la existencia de casos extremos, por lo tanto, la exploración de los datos debe ser el primer paso de cualquier análisis de datos. Algunos conceptos importantes del análisis exploratorio de datos son:

  • Variable: característica que se puede medir
  • Observación: conjunto de observaciones llevadas a cabo en observaciones similares.
  • Dato: una unidad observada y su correspondiente característica, por ejemplo, un individuo y su edad.
  • Metadatos: son los datos de los datos, es decir, una descripción precisa de los datos con los que se trabajará.

Los principios por los que se guía el análisis exploratorio están formados por dos partes:

  • Tendencia: también conocida como regularidad, es la estructura simplificada de un conjunto de observaciones.
  • Variación: es la diferencia de los datos con respecto a la estructura. Es normal observar esta variación en la investigación, ya que, si se mide una variable continua en dos ocasiones, se van a obtener resultados diferentes.

Etapas del análisis exploratorio de datos

El análisis exploratorio de datos es un ciclo interactivo, en el que, a través de un paradigma de una investigación planteado, se guiará el proceso de la investigación:

  • Idea
  • Pregunta (problema de la investigación)
  • Diseño
  • Recolección de datos
  • Análisis
  • Respuestas

Por lo tanto, en el AED:

  • Se realizarán preguntas acerca de los datos
  • Las respuestas a las preguntas se obtendrán con apoyo de representaciones visuales, transformando y modelando los datos
  • Se generarán preguntas constantemente, a partir del análisis de datos

El procedimiento para realizar un AED conlleva seguir una serie de etapas, en primer lugar, preparar los datos para hacerlos accesibles a cualquier técnica estadística, de modo que el/la investigador/a adquiera un conocimiento de los datos y de la relación de las variables analizadas en su investigación, antes de proceder a aplicar los procedimientos inferenciales, teniendo como objetivo, a través de AED, encontrar aspectos que caractericen a las variables estudiadas; clasificar, comparar y relacionar estas variables.

La preparación de los datos es el primer paso de un AED, esto va a requerir de la selección del método de entrada (por teclado o importado de un archivo existente) la codificación de los datos y el procesamiento con el paquete estadístico informático SPSS. La codificación de los datos va a depender del tipo de variable (nominal, ordinal, etc.). La inmensa mayoría de los paquetes estadísticos informáticos van a permitir realizar operaciones con los datos, anteriores al análisis de estos. Algunas de estas operaciones son:

  • Seleccionar subconjuntos de datos
  • Ordenar casos
  • Agregar o eliminar datos
  • Agregar o eliminar variables
  • Guardar el visor de datos

Examen gráfico

En segundo lugar, hay que realizar un examen gráfico de la naturaleza de las variables individuales a analizar y un análisis descriptivo numérico que permita cuantificar algunos aspectos para explorar los datos. Además, hay que realizar un examen gráfico de las relaciones entre las variables analizadas y un análisis descriptivo numérico que cuantifique el grado de interrelación que existe entre ellas.

El análisis exploratorio de datos se caracteriza por el uso de herramientas con mucho apoyo visual o gráfico, con énfasis en identificar propiedades de los datos y con el fin de revelar una idea inicial en estos e información importante sobre el conjunto de datos, así como detectar si hubiera un posible error en la codificación (datos atípicos).

En tercer lugar, se deben identificar los posibles casos atípicos (outliers) y los datos ausentes (missing). En la visualización de los resultados, en una representación gráfica, así como en los histogramas o en el diagrama de barras, se van a mostrar los valores típicos que se verán representados en las barras de mayor altura, y en las barras de menor altura estarán representados los datos menos representativos.

Los valores atípicos (outliers) son observaciones que se encuentran lejos del resto del patrón de las observaciones de una variable (atípico univariable) o en la distribución conjunta de dos o más variables (atípico multivariable). Estos datos atípicos se deben a:

  • Fallos en la codificación de las variables, valores perdidos, etc.
  • Observaciones no realizadas en la población de la cual se ha extraído la muestra.

Cuando ocurren estas situaciones, los datos se deben re-codificar como valores perdidos. En las representaciones gráficas, estos valores atípicos quedan representados con límites inusualmente anchos en el eje horizontal.

El proceso investigativo en el ámbito educativo

Para el profesional en educación es de crucial importancia conocer el proceso de recolección de información. Esto le permite comprender mejor la información, además de interpretarla de forma sencilla. Fuera de esta labor y como un procedimiento anexo, el conocimiento de ello le permitirá transmitir esta técnica a su alumnado de manera óptima.

TECH Universidad Tecnológica hace parte de las mejores instituciones a nivel mundial que oferta educación virtual de alta calidad. En el caso de su Facultad de Educación, se pueden hallar posgrados como el Máster en Trastornos del Habla, Lenguaje y Comunicación y el Máster Investigación en Neuropsicología. A pesar de ser excelentes opciones educativas, para aquellos profesionales que buscan complementar sus conocimientos en el área de investigación, su mejor elección será el Máster Investigación en Educación.

Artículos relacionados

1 /

Compartir