Variables aleatorias y distribuciones de probabilidad
Las variables aleatorias y distribuciones de probabilidad hacen parte de las herramientas de análisis de data con el fin de promediar un posible resultado.
facultad de informática · ciencia de datos
mar. 19 de oct. 2021
0

El objetivo de este artículo es definir el concepto de variables aleatorias y distribuciones de probabilidad para poder manejar los sucesos en forma de números e intervalos. Se introducen, también, algunas de las distribuciones que más se utilizan en la estadística, como son la distribución binomial, poisson y normal. La teoría de la probabilidad forma parte de una rama de las matemáticas que va más allá del cálculo de las probabilidades en los juegos de azar. La probabilidad axiomática es una función que asigna un valor (probabilidad) a cada suceso del espacio muestral, siempre que cumpla una serie de propiedades.

Sin ser demasiado rigurosos, una variable se refiere a algo que puede tomar diferentes valores. Es posible dar un paso más de abstracción y definir una variable que permita trabajar con los experimentos y los sucesos de forma teórica. A esta nueva variable, que se llamará variable aleatoria (V.A.), se le puede asignar un texto que defina el experimento. Así, los valores que toma la variable representan los sucesos asociados al experimento.

Tipos de variable aleatoria

Las variables aleatorias se clasifican en discretas o continuas, dependiendo del número de valores que pueden tomar. Por ejemplo:

  • La variable X = {Suma de las puntuaciones al lanzar dos dados} puede tomar los valores 2, 3,…,12 (es decir, un número finito de valores) y es discreta.
  • La variable Y = {Número de lanzamientos de una moneda hasta que sale la primera cara} puede tomar los valores 1, 2, 3,… (Es decir, un número infinito numerable de valores) y también es discreta.
  • La variable Z = {Tiempo de espera, en minutos, en la cola de un supermercado} puede tomar cualquier valor positivo que sea posible imaginar: 2,35, 3,488 o 5,28164, etc., (es decir, un número infinito no numerable de valores) y es continua.

¿Dónde está, entonces, la diferencia entre variable discreta y variable continua? Una variable es discreta, si el conjunto de valores que puede tomar se puede ordenar de alguna manera, es decir, está claro cuál es el primero de todos, cuál es el segundo y así sucesivamente, de forma que, dado uno de los posibles valores, siempre será posible saber cuál es el anterior y cuál el siguiente. Según esto, las variables X y Y son discretas.

Para ser una variable discreta no es imprescindible que tome valores enteros. Por ejemplo, una variable que tomara los valores fraccionales 1/2, 1/3, 1/4…, también sería discreta, pues cumple con el criterio de ordenación que se ha expuesto. Por otra parte, una variable es continua si el conjunto de valores que puede tomar no se puede ordenar. No es que no se sepa qué valor es más grande o más pequeño que otro, sino que, dado un valor en particular, no se sabe cuál es el valor inmediatamente anterior o posterior.

Variables aleatorias y distribuciones de probabilidad

De todas las variables aleatorias que se pueden imaginar, hay un pequeño grupo de ellas que tienen nombre propio. Representan experimentos habituales en estadística y su uso está muy extendido. En esta sección se verán dos de ellas.

  1. Distribución binomial: hay que suponer un experimento dicotómico (o de Bernoulli), es decir, solo se pueden dar dos resultados que, de forma genérica, se denominan éxito o fracaso. Por ejemplo, si se lanza una moneda, el resultado puede ser cara o cruz. Si se lanza un dado, el resultado puede ser par o impar. Si se compra una lata de refresco, su contenido puede ser superior a 33 cl o inferior a 33 cl.
  2. Distribución normal: la distribución normal o Gaussiana modeliza numerosos fenómenos naturales y sociales, por ejemplo: la estatura de un colectivo de individuos, el nivel de ruido de una señal de telecomunicaciones, los errores cometidos al medir ciertas magnitudes, etc. En general, son procesos que tienen un valor medio fijo y las desviaciones que se producen respecto de ese valor medio son pequeñas fluctuaciones debidas al azar.
    Así, si se estuvieran fabricando tornillos con una longitud L, aunque no todos van a medir exactamente L, las pequeñas desviaciones de ese valor medio no son por un defecto de fabricación, sino porque en el mundo real es imposible controlar todos los factores que intervienen un proceso de producción y que se consideran debidos al azar.

Distribución normal estándar

De todas las distribuciones normales que es posible imaginar, hay una que juega un papel especial en el cálculo de probabilidades. La distribución normal estándar es aquella en la que los parámetros µ y σ valen 0 y 1, respectivamente. La importancia de esta distribución radica en que es posible utilizarla para calcular probabilidades de cualquier variable normal, sin más que realizar el siguiente cambio.

A lo largo de este artículo, se utilizará la letra Z para designar a la distribución normal estándar. Para calcular probabilidades con la distribución normal, se tendría que integrar su función de densidad. Hoy en día, los ordenadores, e incluso, las calculadoras de mano, realizan estas operaciones en una fracción de segundo. Sin embargo, todavía es habitual utilizar tablas en las que aparecen tabulados los valores de las áreas (probabilidades) bajo la normal estándar.

Además, como la distribución Z es simétrica, se cumple que P (Z < −a)= P (Z > a). Por otra parte, P (Z < a) = 1−P (Z > a) (sucesos complementarios). Estas dos propiedades son fundamentales para el manejo de las tablas. Para extraer la probabilidad P (Z > z) de la tabla, se construye el valor de z con la columna de referencia (parte entera y primer decimal) y la fila de referencia (segundo decimal), es decir 0,47 = 0,4 + 0,07. Donde se juntan la fila y la columna dentro de la tabla es valor de P (Z > 0,47).

Operaciones con la distribución normal

Es muy habitual trabajar con experimentos que se realizan varias veces y finalmente se toma el valor medio de los resultados obtenidos (por ejemplo, si se quiere saber cuánto se tarda, en promedio, en realizar una encuesta). Es decir, hay que realizar ciertas operaciones con las variables aleatorias. Una propiedad muy importante y muy utilizada de la distribución normal es que la combinación lineal de distribuciones normales sigue también una distribución normal.

La data empresarial y su análisis

En la actualidad, los datos mueven al mundo. La digitalización y la recolección de conocimientos de todo tipo se han convertido en una tendencia. El acceso a esta información hace parte de como funciona el mercado en la actualidad, ya que de estos datos dependen las acciones a tomar en la industria. Por esta razón, se hace crucial que la información recolectada sea manejada por un profesional con óptimo conocimiento en el área.

TECH Universidad Tecnológica se posiciona como la mayor universidad virtual del mundo. Esto ha sido gracias a su amplio portafolio educativo enfocado en la excelencia profesional. Dentro del mismo se encuentra la Facultad de Informática dedicada por completo a este campo. En ella, se encuentran programas de alta calidad como el Máster en Industria 4.0 y Transformación Digital y el Máster en Ingeniería de Software y Sistemas de Información. A pesar de ser excelentes opciones, para el profesional que busca dominar el campo de los datos y su uso la mejor opción será el Máster en Visual Analytics & Big Data.

Artículos relacionados

1 /

Compartir