Principios fundamentales del big data
Los principios fundamentales del big data son la base del conocimiento acerca de la gestión y recolección de datos.
facultad de informática · inteligencia artificial
lun. 23 de ago. 2021
0

Dentro de los principios fundamentales del big data, el primero de ellos es conocer a fondo a que hace referencia este concepto. El big data es el análisis masivo de datos. Hace referencia a una cantidad de datos sumamente grande, que no se puede procesar con aplicaciones tradicionales. Este término también se refiere a las nuevas tecnologías que hacen posible el almacenamiento y el procesamiento de estas cantidades de datos.

¿De dónde proceden esos datos?

En los últimos años la información disponible ha crecido de manera exponencial. El límite superior de procesamiento ha ido creciendo a lo largo de los años. Se estima que el mundo almacenó unos 5 zettabytes en 2014. Si se pone esta información en libros, convirtiendo las imágenes y todo eso a su equivalente en letras, se podría hacer 4500 pilas de libros que lleguen hasta el sol. Principalmente, los datos se están generando de las siguientes formas:

  • Datos generados por personas: mandar un email, contestar a un Whatsapp o escribir en redes sociales son solo algunos de los ejemplos.
  • Datos generados entra máquinas: los contadores de la luz de las viviendas, los teléfonos móviles o los GPS de los vehículos. Estos se comunican con otros dispositivos a través de otros aparatos a los que transmiten los datos que van recogiendo.
  • Biométricas: son los datos que tienen como origen sensores de huellas dactilares, escáneres de retina, lectores de ADN, sensores de reconocimiento facial o reconocimiento de voz.
  • Marketing en la web: los movimientos en la web están sujetos a mediciones, como el rastreo del movimiento del cursor por parte de los usuarios en una web.
  • Transacciones de datos: algunos ejemplos, están en las transacciones electrónicas entre bancos, la reserva de un billete de avión o la compra de productos a través de un una web.

Tipo de datos

Los datos, se pueden clasificar según su estructura:

  • Datos estructurados: son los que se pueden almacenar en tablas, tienen una determinada longitud y formato. Por ejemplo, los datos numéricos, las fechas o las cadenas de caracteres.
  • Datos no estructurados: se trata de datos en su forma original, según fueron escogidos. No poseen un formato específico. Por ejemplo, los videos, emails, textos, documentos, etc.

Características principales

Las características principales del big data, se agrupan en lo que se llama “las 7 ‘v’”.

  • Velocidad: velocidad en el análisis de los datos. Ejecución de algoritmos cada vez más complejos en menos tiempo.
  • Variedad: los datos provienen de numerosas fuentes y con diferentes formatos.
  • Valor: una gran cuantía de datos frecuentemente extrae pequeñas informaciones de valor.
  • Variabilidad: los macrodatos, se generan en un entorno cambiante por lo que la información varía mucho.
  • Volumen: la cantidad de datos que se está generando es muy grande, ya que la sociedad está interconectada.
  • Veracidad: saber la fiabilidad de la información recogida es importante para obtener unos datos de calidad.
  • Visualización: convertir cientos de hojas de información en un único gráfico que muestre claramente unas conclusiones predictivas.

Gestión del dato

  • Captura de información: dónde está la información que se necesita y cómo capturarla, son dos de los puntos que se deben plantear. Para capturarla, existen métodos como el web scraping (técnica para extraer información de sitios web), mediante la utilización de API o de otros servicios de SW diseñados para capturar grandes cantidades de información.
  • Almacenamiento: después de la captura del dato se necesitará guardarlo. Se podrá optar por hojas de cálculo para información estructurada y por sistemas NoSQL, que permiten el almacenamiento de información no estructurada, de forma más flexible y rápida.
  • Tratamiento: el tratamiento dependerá del tipo de información y del uso que se quiera hacer de ella. Por lo que, se podrá tener desde tratamientos sencillos, hasta sistemas predictivos muchos más complejos. Se puede extraer conocimiento y buscar patrones de comportamiento.
  • Puesta en valor: los datos por sí mismos no aportan conocimiento, sin un análisis y un tratamiento adecuado, no sirven para nada. El valor no estará en los propios datos, sino en la relación de estos entre sí. El valor, puede ser una visualización en un gráfico, donde se haga un análisis predictivo, una recomendación de un artículo relacionado en un portal de comercio electrónico, un cliente que adquiera un producto concreto, etc.

Beneficios del big data

  • Es un conjunto de tecnologías muy ágiles y flexibles.
  • Es escalable por lo que, si se tienen más datos, se pueden poner más máquinas e incluir nuevas analíticas y más información. Así, la infraestructura puede crecer al mismo tiempo que la empresa o proyecto.
  • Rápido y económico respecto a la infraestructura de almacenamiento. Por ejemplo, a través de servicios de computación en la nube, se puede pagar únicamente por lo que se consume.
  • La mayoría de las aplicaciones pertenecen a la comunidad open source, software de código abierto o que forma parte del dominio público. Lo que supone un ahorro económico evidente. También se tiene a disposición una gran comunidad de desarrolladores que trabajan diariamente en mejorar sistemas y procesos de estos recursos.
  • Para el final, la gran ventaja: a través del big data y habiendo seguido correctamente el ciclo de gestión de información, que culmina con la puesta en valor de los datos, se habrá conseguido un objetivo previamente marcado.
    • Ganar más dinero o ahorrarlo a través de mejoras de costes.
    • Adquisición de nuevos clientes o retención de los actuales.
    • Avanzar en una investigación científica.
    • Obtener una ventaja competitiva respecto a los competidores anticipándose a lo que deparará el mercado a través de análisis predictivos. – Optimizar los procesos de producción.

Principios básicos

Para descubrir cómo construir adecuadamente los sistemas de datos, se debe volver a los principios, en el nivel más fundamental, ¿qué hace un sistema de datos? Se puede comenzar con una definición intuitiva: un sistema de datos responde preguntas basadas en información que se adquirió en el pasado hasta el presente. Así que un perfil de red social responde preguntas como ¿cuál es el nombre de esta persona?, y ¿cuántos amigos tiene esta persona?.

Una página web de cuenta bancaria responde preguntas como ¿cuál es mi saldo actual? Y ¿qué transacciones han ocurrido recientemente en mi cuenta? Muchos de estos sistemas de big data fueron iniciados por Google o Amazon, que creó una innovadora distribución de almacén de clave / valor llamado Dynamo.

La comunidad de código abierto respondió en los años siguientes con Hadoop, HBase, MongoDB, Cassandra, RabbitMQ y otros proyectos. Las propiedades por las que deberían esforzarse los sistemas de big data tienen que ver tanto con la complejidad como con la escalabilidad. Un sistema big data no solo debe funcionar bien y ser eficiente en recursos, sino cumplir con las siguientes propiedades:

  • Robustez y tolerancia a fallos
  • Lecturas y actualizaciones de baja latencia
  • Escalabilidad
  • Generalización
  • Extensibilidad
  • Mínimo mantenimiento
  • Consultas had oc

La nueva era de los datos

En los tiempos actuales se hace necesario que las grandes industrias tengan un óptimo manejo de datos. Esto se ha logrado mediante la evolución tecnológica que han sufrido diversos sistemas de información. Los mismos requieren de ciertos puntos en donde el profesional especialista debe tener conocimientos puntuales, y de esta manera controlar y analizar las mismas.

TECH Universidad Tecnológica actualiza constantemente sus programas educativos, de manera que cada profesional encuentre solución a sus necesidades. Esto le ha permitido a esta institución posicionarse entre las mejores de la actualidad. En el caso de su Facultad de Informática se pueden hallar programas como el Máster en Industria 4.0 y Transformación Digital y el Máster en Ingeniería de Software y Sistemas de Información. Sin embargo, para aquellos profesionales que busquen conocer a fondo la información relacionada con el presente artículo, su mejor elección educativa será el Máster en Visual Analytics & Big Data.

Artículos relacionados

1 /

Compartir