El masivo volumen de información que hoy se genera en el mundo ha conllevado a un nuevo modelo de análisis para la toma de decisiones
En 1999, un informático teórico estadounidense llamado John Mashey escribió un ensayo premonitorio para la Era de la Información. Titulado Big Data y la nueva ola de «infraestrés», el artículo alertaba acerca de cómo la infraestructura tecnológica mundial iba a sufrir un exponencial crecimiento en la generación de contenidos de todo tipo, para lo cual no estaba preparada en ese entonces.
Luego de 16 años, si algo se «produce» hoy en el mundo es información en múltiples formatos. La cantidad de aparatos tecnológicos que rodean nuestra vida es enorme y todo parece indicar que la tendencia irá en aumento.
La megaproducción de datos se debe al acelerado desarrollo tecnológico en materia computacional durante la última década. Aquel singular ordenador de escritorio que era común a inicios de siglo hoy se multiplica en teléfonos inteligentes, tabletas y dispositivos con los que los usuarios interactúan de formas variadas.
Todos esos usos de la tecnología, sumando además Internet y su imparable crecimiento, generan una cantidad de información total que hasta ahora nadie ha podido calcular, en cuanto a volumen se refiere.
Ante esta realidad también ha cambiado la forma de procesar los datos. Los modelos analógicos tradicionales de medición quedaron inservibles para procesamientos a gran escala. Por eso toda la información que hoy se genera es analizada con softwares diseñados para ello, y el método ha tomado el término legado por Mashey: Big Data.
Una gestión de Big Data es el análisis de enormes conjuntos de datos que no pueden ser tratados de manera convencional, ya que superan los límites y capacidades de las herramientas de software habitualmente utilizadas para la captura, gestión y procesamiento. Los datos se subdividen en estructurados (tablas y hojas de cálculo, por ejemplo), no estructurados (documentos de texto, correos electrónicos, archivos de voz) y semiestructurados (las páginas web).
Son varios los ejemplos que demuestran cómo ha crecido la cantidad de información que hoy es gestionada en el mundo, especialmente en línea. El sitio web Internet Archive, dedicado a recopilar toda la información que se genera en la Red de redes, tenía almacenado en 2009 alrededor de dos petabytes (un petabyte equivale a mil terabytes). El pasado 1ro. de julio los dueños del sitio reportaron 23 petabytes.
Google, el megabuscador de Internet, procesa diariamente 20 petabytes de datos, mientras YouTube, una de sus empresas, tuvo un tráfico de 27 petabytes de video en diciembre de 2007. Con el aumento del ancho de banda, hoy se ha triplicado el procesamiento en esta red social, según datos de la propia compañía.
En Ginebra, Suiza, el Gran Colisionador de Hadrones genera unos 20 petabytes de datos útiles al año. Megaupload, antes de su polémico cierre, tenía 25 petabytes de almacenamiento. Facebook, por su parte, crece a un ritmo de 220 millones de imágenes por semana, lo que hace suponer un enorme volumen de datos, almacenado solo en esa red social.
Ante ese cúmulo surge entonces una interrogante: ¿qué se puede hacer con tanta información?
El empleo del Big Data para cualquier nación, empresa o institución científica es un método muy ventajoso. Permite analizar patrones de todo tipo y, a partir de ahí, tomar decisiones. Se consideran cinco fortalezas esenciales con este método, conocidas como las cinco V: volumen, variedad, velocidad, veracidad y valor.
Hoy se recopilan datos en el fondo de los mares, desde el espacio exterior y hasta dentro del cuerpo humano. Son numerosas las soluciones tecnológicas empleadas para medir todo lo que nos rodea.
Así, los modelos climáticos hacen un uso extensivo del Big Data, y se trabaja en perfeccionar los sistemas para tratar de predecir terremotos, tsunamis y huracanes antes que acontezcan.
El estado de California, en Estados Unidos, es famoso por su alta sismicidad. Recientemente, varios estudios en universidades como Harvard, San Diego o el Servicio Geológico norteamericano presentaron conclusiones similares a partir del uso del Big Data, en las que analizaron los comportamientos telúricos conocidos y predijeron que esa región podría ser sacudida por devastadores terremotos en menos de un siglo, recoge el diario LA Times.
International Business Machines (IBM), una de las compañías de tecnología computacional más antiguas del mundo, trabaja con un sistema conocido como Hadoop para implementar el Big Data.
Su laboratorio de lenguaje, interacción y computación, de conjunto con la Universidad de Trento, en Italia, desarrolló un estudio para analizar patrones en la comunicación verbal y no verbal. Hadoop se emplea además en el Lineberger Comprehensive Cancer Center, de Estados Unidos, en aras de buscar estándares recurrentes que lleven a soluciones contra el cáncer.
En India, una universidad tecnológica analiza múltiples secuencias de proteínas para determinar los enlaces evolutivos y predecir estructuras moleculares. La naturaleza del algoritmo y el paralelismo computacional de Hadoop mejoran la velocidad y exactitud de estas secuencias.
El Big Data está también presente en la sumatoria de todos los usuarios de teléfonos móviles, sin importar su tamaño o modelo. Las tarjetas SIM de estos aparatos transmiten información sobre su localización, la cual es recogida por los teleoperadores.
Los datos de las SIM han sido utilizados para realizar campañas de vacunación alrededor del mundo, descubrir aldeas en África que no aparecían en el mapa, o brindar asistencia a quienes lo necesitan tras una tragedia como el terremoto de Haití en 2010, relata el diario español El País.
Como todo en esta vida, el Big Data también tiene sus riesgos. Especialmente los relacionados con la privacidad, un asunto en regresión a nivel global.
Mientras algunos consideran que los datos son «el petróleo o el oro del futuro», estudiosos como los austriacos Viktor Mayer-Schönberger y Kenneth Cukier, autores del libro Big Data: una revolución que transformará cómo vivimos, trabajamos y pensamos, alertan del peligro determinista en la gestión de este método.
Este dueto europeo alega que tomar solo los datos como referencia para llegar a conclusiones es un arma de doble filo, especialmente cuando esto involucra a los humanos, pues estaríamos en un escenario parecido al de la película Reporte minoritario, donde sin cometer delito alguno las personas ya eran juzgadas. Y aunque todavía no hemos llegado tan lejos, podría pensarse que los datos pudieran sustituir a las decisiones humanas. «¿Debería permitirse que un dron decida por sí mismo, sin supervisión humana, solo en función de una correlación de datos y algoritmos, si debe o no “eliminar a un objetivo”?», inquieren Mayer-Schönberger y Cukier en su libro.
Otro riesgo del Big Data es el robo de información masiva. Si alguno de estos sistemas es jaqueado permitiría, por ejemplo, «optimizar» el desempeño de organizaciones terroristas o narcotraficantes.
También pueden existir daños a la privacidad de terceros. Ese fue el caso de una adolescente de Minneapolis, EE.UU., quien recibió en 2013 de la cadena Target cupones de descuento para productos destinados a una mujer gestante y su futuro bebé. El padre acudió a la tienda con furia para reclamar lo sucedido. A los pocos días la chica confesó que, efectivamente, estaba embarazada. Había comprado complementos vitamínicos, toallitas sin perfume y otro tipo de productos que llevaron al programa informático de la tienda, análisis de datos mediante, a considerarla «una madre en potencia». Y tenía razón.