¿Qué es el Big Data?
El Big Data o los macrodatos, también llamados datos masivos, inteligencia de datos o datos a gran escala, es un término que hace referencia a conjuntos de datos tan grandes y complejos que precisan de aplicaciones informáticas no tradicionales de procesamiento de datos para tratarlos adecuadamente.
El estudio y análisis del Big Data es la gran oportunidad de nuestro tiempo para que las empresas, independientemente de su industria o sector de actuación, puedan aprovechar los datos con el objetivo de identificar nuevas oportunidades.
¿Por qué el Big Data es tan importante?
Lo más interesante del Big Data es su utilidad para nuestro día a día, aunque en la mayoría de las ocasiones no somos conscientes de cómo llega a afectarnos a pesar de ser nosotros mismos quienes, al estar en contacto con dispositivos inteligentes e interactuar con plataformas digitales, desprendemos una gran cantidad de datos que son recogidos para su análisis.
Estos datos proporcionan respuestas a muchas preguntas que las empresas ni siquiera sabían que tenían.
¿Cuáles son las 10 V del Big Data?
Cuando hablamos de Big Data solemos referirnos a sus propiedades o características como las 3 V o también las 5 V. Sin embargo, a medida que hemos ampliado los conocimientos en este nuevo campo de la analítica de datos masivos podemos enumerar hasta 10 V:
Volumen
Se refiere a la cantidad masiva de datos que se generan en una cifra de tiempo determinada. Por ejemplo, Youtube almacena 18.000 segundos de vídeo por minuto de sus creadores de contenido.
Velocidad
Se trata de la velocidad a la que se generan estos datos masivos. Por ejemplo, Google procesa unas 40.000 búsquedas por segundo, lo que se traduce aproximadamente en más de 3,5 mil millones de búsquedas al día.
Variedad
Los datos generados no son sólo estructurados, sino también semiestructurados y principalmente no estructurados. Éstos pueden ser archivos de audio, imagen, video, actualizaciones de redes sociales y otros formatos de texto, hasta archivos de registro, datos de clics, de máquinas y sensores, etc.
Variabilidad
Tiene dos significados; el número de inconsistencias en los datos y la multitud de dimensiones de datos que resultan de múltiples tipos y fuentes de datos dispares. También puede referirse a la velocidad inconsistente a la que se cargan grandes datos en bases de datos.
Veracidad
Se refiere a la procedencia o confiabilidad de la fuente de datos, su contexto y cuán significativo es para el análisis basado en ella. A medida que aumentan algunas o todas las propiedades anteriores la veracidad disminuye.
Validez
Se refiere a la calidad de los datos tras su limpieza y su precisión e idoneidad para su uso. Es indispensable adoptar buenas prácticas de gobernanza de datos para garantizar una calidad coherente.
Vulnerabilidad
Ante posibles ataques de hackeo y violación de macrodatos, los datos masivos deben ser protegidos con la máxima seguridad disponible.
Volatilidad
Se refiere al tiempo que deben conservarse los datos. Debido a la velocidad y sobretodo al volumen de los macrodatos, deben establecerse reglas para la disponibilidad y la vigencia de estos datos, así como para garantizar una recuperación rápida de la información cuando sea necesario.
Visualización
Otra característica de los datos masivos es su complejidad para visualizarlos, por lo que son necesarias diferentes formas de representarlos, como la agrupación o el uso de mapas, las coordenadas o los diagramas, entre otras.
Valor
Es tal vez la propiedad más importante de todas, pues el resto de características no tienen sentido alguno si los datos no tienen valor ni utilidad.