RUBIO HARO RODRIGO RODOLFO |
BigData
El concepto de Big Data, básicamente, aplica para toda aquella información que no puede ser procesada o analizada utilizando procesos o herramientas tradicionales, ya que superan los límites y capacidades de las herramientas de software habitualmente utilizadas para la captura, gestión y procesamiento de datos.
El gran valor de la data (los datos), radica en la estructuración y el almacenaje de esta. Y aunque la traducción directa de Big Data se refiere a cantidades enormes de datos, normalmente medidos en ExaBytes, PetaBytes, etcétera; si no que la big data para ser considerada como tal debe de cumplir con la regla de las cinco"Vs" (Volumen, Velocidad, Variedad, Veracidad y Valor del Data).
Volumen
Cuando el volumen de los datos supera la capacidad del software habitual para ser manejados y gestionados. Cuando hablamos de grandes volúmenes nos referimos a tratamientos de Petabytes o Exabytes. Este concepto es muy variable ya que el constante avance tecnológico eleva lo que podemos considerar grandes volúmenes de datos.
Variedad
Se refiere a la inclusión de otros tipos de fuentes de datos diferentes a las que se utilizan de forma tradicional. Por ejemplo, información obtenida en Redes Sociales (facebook, Instagram, Twitter, etc.), en el número cada vez mayor de dispositivos electrónicos conectados (por ejemplo los móviles), etc.Velocidad
Es la rapidez con que los datos se reciben, se procesan y, a partir de este proceso se toman decisiones en el sistema. A la mayoría de los sistemas tradicionales les es imposible analizar de forma inmediata los grandes volúmenes de datos que les llegan.Veracidad
Es la confianza de los datos, extraer datos de "calidad" eliminado la imprevisibilidad inherente de algunos, como el tiempo, la economía etc, así como las fuentes; para, de esta forma, llegar a una toma de decisiones que nos resulte beneficiosa.Valor del Dato
La importancia del dato para el negocio, saber que datos son los que se deben analizar, es fundamental. Principalmente para el marketing que nos permite segmentar de manera increíble a determinados usuarios, por lo que unos datos, en ciertos casos, no resultaran mas útiles.Clasificación del BigData
- Web and Social Media: Incluye contenido web e información que es obtenida de las redes sociales.
- Machine-to-Machine (M2M): M2M se refiere a las tecnologías que permiten conectarse a otros dispositivos
- Big Transaction Data: Incluye registros de facturación, en telecomunicaciones registros detallados de las llamadas (CDR), etc.
- Biometrics: Información biométrica en la que se incluye huellas digitales, escaneo de la retina, reconocimiento facial, genética, etc.
- Human Generated: Las personas generamos diversas cantidades de datos.
- La combinación de estos esta permitida, y de hecho es muy común en la industria del Software.
Ejemplos de Tecnologías para BigData
El líder en BigData en la actualidad es sin duda alguna es Hadoop, que está inspirado en el proyecto de Google File System y en el paradigma de programación MapReduce, el cual consiste en dividir en dos tareas mapper – reducer para manipular los datos distribuidos a nodos de un clúster para procesar con mayor eficacia. Esta tecnología está compuesta de tres piezas: Hadoop Distributed File System (HDFS), Hadoop MapReduce y Hadoop Common.Sin embargo existen alternativas para diferentes necesidades:
- Avro
- Provee servicios de serialización(Por Apache). Si se guaran datos en un archivo, el esquema que define ese archivo es guardado dentro del mismo; de este modo es más sencillo para cualquier aplicación leerlo posteriormente puesto que el esquema esta definido dentro del archivo.
- Cassandra
- Es una base de datos no relacional distribuida y basada en un modelo de almacenamiento de clave-valor, desarrollada en Java. Permite grandes volúmenes de datos en forma distribuida.
- Chukwa
- Diseñado para la colección y análisis a gran escala de "logs". Incluye un toolkit para desplegar los resultados del análisis y monitoreo.
- Flume
- Tal como su nombre lo indica, su tarea principal es dirigir los datos de una fuente hacia alguna otra localidad, en este caso hacia el ambiente de Hadoop. Existen tres entidades principales: sources, decorators y sinks. Un source es básicamente cualquier fuente de datos, sink es el destino de una operación en específico y un decorator es una operación dentro del flujo de datos que transforma esa información de alguna manera, como por ejemplo comprimir o descomprimir los datos o alguna otra operación en particular sobre los mismos.
Conclusión
El uso de Big Data ha ayudado a los investigadores a descubrir cosas que les podrían haber tomado años en descubrir por si mismos sin el uso de estas herramientas. A los diseñadores de campañas de marketing, encontrar las estadísticas globales de necesidades especificas, probabilidades en juegos de ligas, etcétera. Sus usos son realmente extensos, y eso que apenas hemos visto los inicios de una herramienta que esta cambiando la forma de hacer las cosas, y en efecto nos facilita la vida ;).Referencias:
- José Carlos López López.. (2014). La moda del Big Data: ¿En qué consiste en realidad?. 15/05/2017, de El Economista Sitio web: http://www.eleconomista.es/tecnologia/noticias/5578707/02/14/La-moda-del-Big-Data-En-que-consiste-en-realidad.html
- Víctor Pérez. (2011). ¿Qué es el Big Data?. 15/05/2017, de Analiticaweb Sitio web: http://www.analiticaweb.es/que-es-big-data/
- Cisco, Internet será cuatro veces más grande en 2016, Artículo Web http://www.cisco.com/web/ES/about/press/2012/2012-05-30-internet-sera-cuatro-veces-mas-grande-en-2016--informe-vini-de-cisco.html
- Soares Sunil, Not Your Type? Big Data Matchmaker On Five Data Types You Need To Explore Today, Artículo Web http://www.dataversity.net/not-your-type-big-data-matchmaker-on-five-data-types-you-need-to-explore-today/
- Clegg Dai, Big Data: The Data Velocity Discussion, Artículo Web http://thinking.netezza.com/blog/big-data-data-velocity-discussion
- Kobielus James, Big Data Analytics Helps Researchers Drill Deeper into Multiple Sclerosis, Artículo Web http://thinking.netezza.com/blog/big-data-analytics-helps-researchers-drill-deeper-multiple-sclerosis