En un sentido general, lo primero que debe hacer su negocio para aprovechar la Big Data es reflexionar si las necesidades y oportunidades de la empresa están vinculadas con la capacidad de operar con datos masivos o se trata más bien, de aplicar técnicas de aprendizaje automático a conjuntos de datos que ya tienen y cuya escala entra dentro de los parámetros convencionales de un Data Warehouse.

Una cosa es almacenar datos masivos y otra es tratar datos masivos almacenados. Si solamente se trata de almacenar grandes bases de datos (por ejemplo como sistema de backup), existen alternativas a bajo costo que son mucho más eficientes.

Si, por el contrario, estos datos son la entrada de procesos de cómputo -por ejemplo de tipo analítico-, es indispensable un sistema capaz de operar con estos datos tan enormes con cierta eficiencia y agilidad, y en la actualidad eso se consigue con dos estrategias tecnológicas distintas: los grandes clústers de bases de datos relacionales con procesamiento in-memory o los clústers basados en el paradigma de Hadoop/Map-Reduce/programación distribuida, mucho más baratos que los anteriores, pero a cambio de renunciar a algunas funcionalidades típicas de los sistemas RDBMS.

No obstante existen grandes confusiones entre la Big Data y lo que se denomina Data Science. Si lo que necesita la empresa es aplicar modelos predictivos a la información propia y combinarla, por ejemplo, con datos procedentes de Internet, no necesariamente las fuentes de datos son gigantescas.

Han sido creados diversos modelos predictivos basados en series temporales de sensores en donde un dataset completo con datos de 15 años no superaba los 100MB y permite trabajar con más de 1 millón de eventos registrados. Este archivo está muy lejos de ser “Big Data”, pero es perfectamente válido para entrenar una red neuronal DNN y obtener predicciones con un margen de error no superior al 2%.

En resumen, es necesario que la empresa defina qué se quiere conseguir, qué preguntas se van a formular y qué tipo de respuestas se quieren ofrecer;  se deben analizar qué operaciones serán necesarias para acceder a los datos, y las herramientas más adecuadas para hacerlo.

Posteriormente, se debe evaluar las magnitudes del conjunto de datos, tanto en tamaño actual como la tasa de crecimiento para determinar qué solución es la más adecuada. Por ultimo, pero no menos importante, se debe analizar y definir claramente qué restricciones afectan a los datos y los procesos que han sido identificados anteriormente.

Deja un comentario