Introducción a la estadística
La introducción a la estadística nos brinda la posibilidad de conocer lo básico con respecto a la creación de datos con base en la información recolectada.
facultad de informática · ciencia de datos
jue. 09 de sep. 2021
0

En este artículo se abordará el concepto matemático de introducción a la estadística y se definirán los elementos con los que se va a trabajar: variables, datos, tablas, etc. Aunque más adelante se volverá a definir lo que es una variable desde el punto de vista de la probabilidad, ahora se va a trabajar con la parte experimental de la estadística.

La estadística es una disciplina científica que se ocupa de recolectar datos, manipularlos (realizar operaciones de ordenación y simplificación) y analizarlos para extraer conclusiones sobre los fenómenos observados y poder predecir su comportamiento o, al menos, su tendencia. Se puede decir que la estadística es la ciencia de los datos en el sentido de que intenta extraer información relevante sobre los fenómenos sociales y naturales, a partir de una serie de datos recopilados de forma experimental.

Según la RAE (Real Academia Española), en su quinta acepción, la estadística es la “rama de la matemática que utiliza grandes conjuntos de datos numéricos para obtener inferencias basadas en el cálculo de probabilidades.” En cualquier caso, queda claro que la estadística es un conjunto de herramientas o procedimientos para recopilar y representar datos. Según el uso que se vaya a hacer de ellos, la estadística se puede dividir en dos grandes grupos:

  • Estadística descriptiva: tiene por objeto describir y analizar un determinado conjunto de datos sin pretender sacar conclusiones de tipo más general. Se refiere a los métodos de recolección, organización, resumen y presentación de un conjunto de datos.
  • Estadística inferencial: se refiere a los métodos utilizados para poder hacer predicciones, generalizaciones y obtener conclusiones a partir de los datos analizados y del cálculo de probabilidades.

La creación de datos

El conjunto de datos en cuestión representa una muestra de los distintos valores que puede tomar una variable (por ejemplo, estatura, ingresos de una unidad familiar, estado civil, número de grietas en un ala) en toda una población (estatura de los alumnos de una universidad, ingresos de una unidad familiar residente en un país, estado civil de una persona residente en un país, número de grietas en el ala de un A380). Una variable (característica bajo estudio), según los valores que puede tomar, se clasifica en dos tipos:

  • Variable cuantitativa: toma valores numéricos cuyos datos difieren en magnitud (por ejemplo, estatura, ingresos anuales, etc.). Dependiendo del tipo de valores que puede tomar una variable cuantitativa, puede ser:
    • Variable discreta: aquella que puede tomar un número finito o infinito numerable de valores. Por ejemplo, número de hijos, número de días que toma una medicación, número de baches en 1 km de carretera, etc.
    • Variable continua: aquella que puede tomar un número infinito no numerable de valores. Por ejemplo, temperatura máxima que se alcanza en verano, peso de una bolsa de golosinas, distancia recorrida con 100 litros de combustible, etc.
  • Variable cualitativa o categórica: toma valores que difieren en tipo (por ejemplo, estado civil, nacionalidad, etc.). Dependiendo del tipo de valores que puede tomar una variable cualitativa, puede ser:
    • Variable nominal: aquella cuyos valores no se pueden ordenar. Por ejemplo, nacionalidad, sexo, etc.
    • Variable ordinal: aquella cuyos valores sí se pueden ordenar. Por ejemplo, grado de dolor, grado de satisfacción con un servicio de compra, etc.

Representación de datos

Gráficos

Una forma menos monótona de presentar una tabla de datos consiste en utilizar gráficos en los que de un vistazo se puede tener una idea de las frecuencias observadas. Por ejemplo, hay que suponer que se tiene la siguiente tabla, resultado de una muestra de la nacionalidad de los pasajeros de cierto vuelo. Es posible representar dicha tabla con un diagrama de barras o un diagrama de sectores.

Cuando el diagrama de barras se representa con las frecuencias ordenadas de mayor a menor, se denomina diagrama de Pareto. Se utilizan dibujos para representar los elementos de estudio y las frecuencias. En ese caso, los diagramas se denominan pictogramas. En un pictograma, el tamaño de los dibujos o el número de elementos está relacionado con la frecuencia de la observación. Este tipo de gráficos se utiliza para representar variables cualitativas o cuantitativas con un número moderado de categorías.

Histogramas

Cuando se recogen datos de una variable continua, lo habitual es que no haya observaciones repetidas (por la propia naturaleza continua de la variable). Es por eso que las tablas y diagramas no son una opción para este caso. En su lugar, se utilizan los histogramas. En un histograma, los datos se dividen en clases (categorías o intervalos) y la frecuencia absoluta cuenta el número de observaciones contenidas en cada intervalo.

Las clases y frecuencias se pueden dar en forma de tabla o de diagrama, utilizando frecuencias absolutas o relativas, acumuladas o no. En la siguiente figura se representa un ejemplo para una muestra sobre el tiempo de vuelo, en segundos, entre dos ciudades. Un histograma también se puede utilizar para representar una muestra de una variable discreta.

En ese caso, lo habitual es utilizar tantas clases como posibles valores puede tomar la variable, siempre que no sean demasiados, en cuyo caso se pueden agrupar. Por ejemplo, si se lanza un dado 1000 veces, se utilizarán 6 categorías (una por cada cara del dado), pero, si se cuenta el número de pasajeros de un trayecto entre dos ciudades durante 100 días, se utilizarán intervalos o clases.

Variable aleatoria

A lo largo de este artículo se han tratado los datos como resultado de un experimento. Cada experimento estudia un fenómeno o característica, cuyos resultados son aleatorios, en el sentido de que no es posible predecir el resultado del experimento. No hay una fórmula matemática que permita relacionar las condiciones en que se realiza el experimento con sus resultados, ya que siempre interviene un factor aleatorio en ellos. Por ejemplo, el tiempo de vuelo entre dos ciudades A y B, aunque las condiciones sean similares, se ve afectado por pequeñas fluctuaciones debidas al azar.

Teniendo en cuenta esta condición aleatoria de los fenómenos bajo estudio, aunque no se podrá saber cuánto va a tardar el próximo vuelo entre las ciudades A y B, sí es posible calcular la probabilidad de que tarde más de t horas, por ejemplo. Para calcular esta probabilidad, se debe tener modelizado el fenómeno bajo estudio. A continuación se expone un ejemplo de cómo se puede modelizar un fenómeno aleatorio:

Hay que suponer que se quiere modelizar el tiempo de vuelo, en segundos, entre dos ciudades A y B. Se define la variable aleatoria. X = {Tiempo de vuelo, en segundos, entre dos ciudades A y B} Se puede realizar un experimento (muestra) consistente en medir el tiempo en 10 000 vuelos entre A y B. Así, se obtendrían los siguientes valores: {x1, x2,…, x10000}.

La estadística en el mundo actual

La estadística, en el mundo actual, se ha convertido en la base del desarrollo corporativo en cualquier territorio. Esto se debe a la amplitud de acciones que pueden realizarse con solamente, información y datos. Podría incluso decirse, que hoy en día, los datos llegan a ser más valiosos que el mismo dinero. Sin embargo, el control, el registro, la recolección y la creación de gráficas de esta información requiere de personal profesional capacitado para ello.

TECH Universidad Tecnológica se ha desempeñado con su amplio portafolio educativo para posicionarse como la mayor universidad virtual del mundo. Esto se ha logrado debido a los altos estándares educativos de esta institución. Dentro de la misma es posible hallar una Facultad de Informática dedicada a los profesionales de esta labor. En ella pueden encontrarse programas educativos especializados tales como el Máster en Industria 4.0 y Transformación Digital y el Máster en Ingeniería de Software y Sistemas de Información.

Sin embargo, para aquellos profesionales que buscan complementar su educación y conocimientos con el campo de los datos y el análisis de los mismos, no cabe duda que su mejor decisión será optar por el Máster en Visual Analytics & Big Data.

Artículos relacionados

1 /

Compartir