Big Data

RUBIO HARO RODRIGO RODOLFO

BigData

El concepto de Big Data, básicamente, aplica para toda aquella información que no puede ser procesada o analizada utilizando procesos o herramientas tradicionales, ya que superan los límites y capacidades de las herramientas de software habitualmente utilizadas para la captura, gestión y procesamiento de datos.

El gran valor de la data (los datos), radica en la estructuración y el almacenaje de esta. Y aunque la traducción directa de Big Data se refiere a cantidades enormes de datos, normalmente medidos en ExaBytes, PetaBytes, etcétera; si no que la big data para ser considerada como tal debe de cumplir con la regla de las cinco"Vs" (Volumen, Velocidad, Variedad, Veracidad y Valor del Data).

Volumen

Cuando el volumen de los datos supera la capacidad del software habitual para ser manejados y gestionados. Cuando hablamos de grandes volúmenes nos referimos a tratamientos de Petabytes o Exabytes. Este concepto es muy variable ya que el constante avance tecnológico eleva lo que podemos considerar grandes volúmenes de datos.

Variedad

Se refiere a la inclusión de otros tipos de fuentes de datos diferentes a las que se utilizan de forma tradicional. Por ejemplo, información obtenida en Redes Sociales (facebook, Instagram, Twitter, etc.), en el número cada vez mayor de dispositivos electrónicos conectados (por ejemplo los móviles), etc.

Velocidad

Es la rapidez con que los datos se reciben, se procesan y, a partir de este proceso se toman decisiones en el sistema. A la mayoría de los sistemas tradicionales les es imposible analizar de forma inmediata los grandes volúmenes de datos que les llegan.

Veracidad

Es la confianza de los datos, extraer datos de "calidad" eliminado la imprevisibilidad inherente de algunos, como el tiempo, la economía etc, así como las fuentes; para, de esta forma, llegar a una toma de decisiones que nos resulte beneficiosa.

Valor del Dato

La importancia del dato para el negocio, saber que datos son los que se deben analizar, es fundamental. Principalmente para el marketing que nos permite segmentar de manera increíble a determinados usuarios, por lo que unos datos, en ciertos casos, no resultaran mas útiles.

Clasificación del BigData

Web and Social Media: Incluye contenido web e información que es obtenida de las redes sociales.
Machine-to-Machine (M2M): M2M se refiere a las tecnologías que permiten conectarse a otros dispositivos
Big Transaction Data: Incluye registros de facturación, en telecomunicaciones registros detallados de las llamadas (CDR), etc.
Biometrics: Información biométrica en la que se incluye huellas digitales, escaneo de la retina, reconocimiento facial, genética, etc.
Human Generated: Las personas generamos diversas cantidades de datos.
La combinación de estos esta permitida, y de hecho es muy común en la industria del Software.

Ejemplos de Tecnologías para BigData

El líder en BigData en la actualidad es sin duda alguna es Hadoop, que está inspirado en el proyecto de Google File System y en el paradigma de programación MapReduce, el cual consiste en dividir en dos tareas mapper – reducer para manipular los datos distribuidos a nodos de un clúster para procesar con mayor eficacia. Esta tecnología está compuesta de tres piezas: Hadoop Distributed File System (HDFS), Hadoop MapReduce y Hadoop Common.

Sin embargo existen alternativas para diferentes necesidades:

Avro

Provee servicios de serialización(Por Apache). Si se guaran datos en un archivo, el esquema que define ese archivo es guardado dentro del mismo; de este modo es más sencillo para cualquier aplicación leerlo posteriormente puesto que el esquema esta definido dentro del archivo.

Cassandra

Es una base de datos no relacional distribuida y basada en un modelo de almacenamiento de clave-valor, desarrollada en Java. Permite grandes volúmenes de datos en forma distribuida.

Chukwa

Diseñado para la colección y análisis a gran escala de "logs". Incluye un toolkit para desplegar los resultados del análisis y monitoreo.

Flume

Tal como su nombre lo indica, su tarea principal es dirigir los datos de una fuente hacia alguna otra localidad, en este caso hacia el ambiente de Hadoop. Existen tres entidades principales: sources, decorators y sinks. Un source es básicamente cualquier fuente de datos, sink es el destino de una operación en específico y un decorator es una operación dentro del flujo de datos que transforma esa información de alguna manera, como por ejemplo comprimir o descomprimir los datos o alguna otra operación en particular sobre los mismos.

Conclusión

El uso de Big Data ha ayudado a los investigadores a descubrir cosas que les podrían haber tomado años en descubrir por si mismos sin el uso de estas herramientas. A los diseñadores de campañas de marketing, encontrar las estadísticas globales de necesidades especificas, probabilidades en juegos de ligas, etcétera. Sus usos son realmente extensos, y eso que apenas hemos visto los inicios de una herramienta que esta cambiando la forma de hacer las cosas, y en efecto nos facilita la vida ;).

Referencias:

José Carlos López López.. (2014). La moda del Big Data: ¿En qué consiste en realidad?. 15/05/2017, de El Economista Sitio web: http://www.eleconomista.es/tecnologia/noticias/5578707/02/14/La-moda-del-Big-Data-En-que-consiste-en-realidad.html
Víctor Pérez. (2011). ¿Qué es el Big Data?. 15/05/2017, de Analiticaweb Sitio web: http://www.analiticaweb.es/que-es-big-data/
Cisco, Internet será cuatro veces más grande en 2016, Artículo Web http://www.cisco.com/web/ES/about/press/2012/2012-05-30-internet-sera-cuatro-veces-mas-grande-en-2016--informe-vini-de-cisco.html
Soares Sunil, Not Your Type? Big Data Matchmaker On Five Data Types You Need To Explore Today, Artículo Web http://www.dataversity.net/not-your-type-big-data-matchmaker-on-five-data-types-you-need-to-explore-today/
Clegg Dai, Big Data: The Data Velocity Discussion, Artículo Web http://thinking.netezza.com/blog/big-data-data-velocity-discussion
Kobielus James, Big Data Analytics Helps Researchers Drill Deeper into Multiple Sclerosis, Artículo Web http://thinking.netezza.com/blog/big-data-analytics-helps-researchers-drill-deeper-multiple-sclerosis

RUBIO HARO RODRIGO RODOLFO
INSTITUTO POLITÉCNICO NACIONAL
CENTRO DE ESTUDIOS CIENTÍFICOS Y TECNOLÓGICOS 9
"JUAN DE DIOS BÁTIZ"

Calidad en aplicaciones web (Web Apps)

RUBIO HARO RODRIGO RODOLFO CALIDAD PARA WEB APPS Se suele definir como propiedades de un objeto, producto, servicio, o en realidad, casi cualquier cosa; que permite caracterizarla y valorarla con respecto a las restantes de su categoría, sector o especie. La industria del software se ha guiado de ciertos estándares para asegurar la calidad. Sin embargo, con el crecimiento exponencial de la aplicaciones web, se han fragmentados algunos de estos aspectos para asegurar "la calidad". No es lo mismo hacer un sistema tradicional, que desarrollar una aplicación web, y por lo tanto, hemos de considerar los conceptos que mas influyen en la calidad de una aplicación web. Las características más relevantes -usabilidad, funcionalidad, fiabilidad, eficiencia y capacidad de mantenimiento- proporcionan una base verdaderamente útil para evaluar la calidad de los sistemas basados en Web. Olsina y sus colaboradores [OSL99] han preparado un «árbol de requisitos de calidad» que iden...

RUBIO HARO DIGITAL

Buscar este blog