Ir al contenido principal

Big Data

RUBIO HARO RODRIGO RODOLFO


BigData

El concepto de Big Data, básicamente, aplica para toda aquella información que no puede ser procesada o analizada utilizando procesos o herramientas tradicionales, ya que superan los límites y capacidades de las herramientas de software habitualmente utilizadas para la captura, gestión y procesamiento de datos.

El gran valor de la data (los datos), radica en la estructuración y el almacenaje de esta. Y aunque la traducción directa de Big Data se refiere a cantidades enormes de datos, normalmente medidos en ExaBytes, PetaBytes, etcétera; si no que la big data para ser considerada como tal debe de cumplir con la regla de las  cinco"Vs" (Volumen, Velocidad, Variedad, Veracidad y Valor del Data).

Volumen

Cuando el volumen de los datos supera la capacidad del software habitual para ser manejados y gestionados. Cuando hablamos de grandes volúmenes nos referimos a tratamientos de Petabytes o Exabytes. Este concepto es muy variable ya que el constante avance tecnológico eleva lo que podemos considerar grandes volúmenes de datos.

Variedad

Se refiere a la inclusión de otros tipos de fuentes de datos diferentes a las que se utilizan de forma tradicional. Por ejemplo, información obtenida en Redes Sociales (facebook, Instagram, Twitter, etc.), en el número cada vez mayor de dispositivos electrónicos conectados (por ejemplo los móviles), etc.

Velocidad

Es la rapidez con que los datos se reciben, se procesan y, a partir de este proceso se toman decisiones en el sistema. A la mayoría de los sistemas tradicionales les es imposible analizar de forma inmediata los grandes volúmenes de datos que les llegan.

Veracidad

Es la confianza de los datos, extraer datos de "calidad" eliminado la imprevisibilidad inherente de algunos, como el tiempo, la economía etc, así como las fuentes; para, de esta forma, llegar a una toma de decisiones que nos resulte beneficiosa.

Valor del Dato

La importancia del dato para el negocio, saber que datos son los que se deben analizar, es fundamental. Principalmente para el marketing que nos permite segmentar de manera increíble a determinados usuarios, por lo que unos datos, en ciertos casos, no resultaran mas útiles.

Clasificación del BigData


  • Web and Social Media: Incluye contenido web e información que es obtenida de las redes sociales.
  • Machine-to-Machine (M2M): M2M se refiere a las tecnologías que permiten conectarse a otros dispositivos
  • Big Transaction Data: Incluye registros de facturación, en telecomunicaciones registros detallados de las llamadas (CDR), etc.
  • Biometrics: Información biométrica en la que se incluye huellas digitales, escaneo de la retina, reconocimiento facial, genética, etc.
  • Human Generated: Las personas generamos diversas cantidades de datos.
  • La combinación de estos esta permitida, y de hecho es muy común en la industria del Software.

Ejemplos de Tecnologías para BigData

El líder en BigData en la actualidad es sin duda alguna es Hadoop, que está inspirado en el proyecto de Google File System y en el paradigma de programación MapReduce, el cual consiste en dividir en dos tareas mapper – reducer para manipular los datos distribuidos a nodos de un clúster para procesar con mayor eficacia. Esta tecnología está compuesta de tres piezas: Hadoop Distributed File System (HDFS), Hadoop MapReduce y Hadoop Common.

Sin embargo existen alternativas para diferentes necesidades:


  • Avro
    • Provee servicios de serialización(Por Apache). Si se guaran datos en un archivo, el esquema que define ese archivo es guardado dentro del mismo; de este modo es más sencillo para cualquier aplicación leerlo posteriormente puesto que el esquema esta definido dentro del archivo.
  • Cassandra
    • Es una base de datos no relacional distribuida y basada en un modelo de almacenamiento de clave-valor, desarrollada en Java. Permite grandes volúmenes de datos en forma distribuida.
  • Chukwa
    • Diseñado para la colección y análisis a gran escala de "logs". Incluye un toolkit para desplegar los resultados del análisis y monitoreo.
  • Flume
    • Tal como su nombre lo indica, su tarea principal es dirigir los datos de una fuente hacia alguna otra localidad, en este caso hacia el ambiente de Hadoop. Existen tres entidades principales: sources, decorators y sinks. Un source es básicamente cualquier fuente de datos, sink es el destino de una operación en específico y un decorator es una operación dentro del flujo de datos que transforma esa información de alguna manera, como por ejemplo comprimir o descomprimir los datos o alguna otra operación en particular sobre los mismos.

Conclusión

El uso de Big Data ha ayudado a los investigadores a descubrir cosas que les podrían haber tomado años en descubrir por si mismos sin el uso de estas herramientas. A los diseñadores de campañas de marketing, encontrar las estadísticas globales de necesidades especificas, probabilidades en juegos de ligas, etcétera. Sus usos son realmente extensos, y eso que apenas hemos visto los inicios de una herramienta que esta cambiando la forma de hacer las cosas, y en efecto nos facilita la vida ;).

Referencias:


  • José Carlos López López.. (2014). La moda del Big Data: ¿En qué consiste en realidad?. 15/05/2017, de El Economista Sitio web: http://www.eleconomista.es/tecnologia/noticias/5578707/02/14/La-moda-del-Big-Data-En-que-consiste-en-realidad.html
  • Víctor Pérez. (2011). ¿Qué es el Big Data?. 15/05/2017, de Analiticaweb Sitio web: http://www.analiticaweb.es/que-es-big-data/
  • Cisco, Internet será cuatro veces más grande en 2016, Artículo Web http://www.cisco.com/web/ES/about/press/2012/2012-05-30-internet-sera-cuatro-veces-mas-grande-en-2016--informe-vini-de-cisco.html
  • Soares Sunil, Not Your Type? Big Data Matchmaker On Five Data Types You Need To Explore Today, Artículo Web http://www.dataversity.net/not-your-type-big-data-matchmaker-on-five-data-types-you-need-to-explore-today/
  • Clegg Dai, Big Data: The Data Velocity Discussion, Artículo Web http://thinking.netezza.com/blog/big-data-data-velocity-discussion
  • Kobielus James, Big Data Analytics Helps Researchers Drill Deeper into Multiple Sclerosis, Artículo Web http://thinking.netezza.com/blog/big-data-analytics-helps-researchers-drill-deeper-multiple-sclerosis



RUBIO HARO RODRIGO RODOLFO
INSTITUTO POLITÉCNICO NACIONAL
CENTRO DE ESTUDIOS CIENTÍFICOS Y TECNOLÓGICOS 9
"JUAN DE DIOS BÁTIZ"

Entradas populares de este blog

Tabla Periódica de la Web: Resumen

  Resumen. Al momento de desarrollar un proyecto, se propone la fase de resumen del proyecto en donde se recolecta la información necesaria para proceder con la planeación del proyecto. Aunque todas las etapas de desarrollo son importantes, al ser la primera, definirá en gran parte si el proyecto tiene éxito o no. Veremos el desglose de cada uno de los elementos de esta etapa. En la etapa de resumen tenemos 8 elementos. 1. Definición de Proyecto (PrD) Definir el proyecto es establecer la idea principal del proyecto, la piedra angular. En este primer elemento debemos considerar que deberá moldearse y pulirse esa idea. 2. Target (Ta) Definida la idea principal del proyecto, tenemos que delimitar lo más posible el público objetivo o target que se verá beneficiado del proyecto.  3. Objetivos (Go) Establecer objetivos específicos sobre que tendrá que realizar el sistema, estos deben de estar en función del público elegido. 4. Especificaciones Técnicas (TS) Las especificaciones Técn...

Tabla Periódica de la Web: Planeación

Planeación. Una vez que tenemos claro que cosas se quieren llevar a cabo en nuestra webapp, diseñar un plan teniendo en cuenta nuestros objetivos, recursos, presupuesto, entre otros factores, nos permitirá desarrollar nuestro proyecto enfocado completamente a las necesidades planteadas.  Es importante integrar al equipo de desarrollo en la etapa de planeación, se fomenta el sentimiento de propiedad y usualmente se verán más comprometidos con el proyecto. Este punto se puede argumentar con el principio de los equipos autónomos de las metodologías ágiles. 1. Investigación y desarrollo de Conceptos Una vez dados los primeros requisitos del cliente, se deberá hacer una investigación, está dependerá de la complejidad de lo solicitado. Investigar y desarrollar los conceptos dados. La investigación tiene como fin que el equipo de desarrollo comience a formular propuestas para la arquitectura de la aplicación. 2. Lluvia de ideas Organizar sesiones de este tipo, permitirá al equipo de desar...

Documentación de Software: Artefactos

Concepto Un artefacto es un producto tangible resultante del proceso de desarrollo de software. Ya sea un documento o un modelo. Para hacer el desarrollo de un sistema de Software manejable completo, los artefactos están organizados en conjuntos correspondientes a las disciplinas. Como lo pueden ser para arquitectura de software, diseño de software o para la base de datos. Los roles usan artefactos para ejecutar actividades y producen artefactos durante la ejecución de sus actividades. Arquitectura de Software  Modelo de desarrollo Modelo de análisis Modelo de Diseño  Documento de Arquitectura de Software Modelo de Implementación Directrices de Programación Diseño de Software  Diagramas de casos de Uso Análisis de clases (Diagramas de clase y objetos) Diagramas de secuencia Base de Datos Modelo de datos Entidad-relación Modelo de diseño Modelo conceptual Modelo físico Modelo lógico Artefactos