Tecno

Big Data no es necesariamente la mejor decisión

En el área de la alta tecnología, la minería de datos y los grandes datos (macro data o Big Data), son las palabras de moda y las frases claves que se utilizan ampliamente, reflejando principalmente la era de la información en donde vivimos actualmente. De hecho, vivimos en tiempo donde todo es exponencial comparativamente a las épocas antiguas, la cantidad de datos generados por persona es realmente asombroso.

single-image

En el área de la alta tecnología, la minería de datos y los grandes datos (macro data o Big Data), son las palabras de moda y las frases claves que se utilizan ampliamente, reflejando principalmente la era de la información en donde vivimos actualmente. De hecho, vivimos en tiempo donde todo es exponencial comparativamente a las épocas antiguas, la cantidad de datos generados por persona es realmente asombroso.

El primer mensaje de texto que se envió comercialmente, se realizó en 1992 y hoy la cantidad de mensajes de textos enviados y recibidos excede a la población total del planeta.

También se estima que se crean 2,3 mil millones de gigabytes de datos de información cada día y la cantidad de nueva información técnica se duplica cada dos años, con 43 mil millones de gigabytes de datos que se esperan crear para el 2020.

Más recientemente Japón ha probado con éxito un cable de fibra optima que puede enviar a través de él más de 14 mil millones de bits por segundo en uno solo hilo de fibra óptica, es decir, 2.660 CDS o 210 millones de llamadas telefónicas por segundo.

Esto muestra como la ciencia, la tecnología y las innovaciones en materia de datos está emergiendo como un atractivo campo de estudio, y muchos estudiantes se están aventurando en los grandes volúmenes de datos. Desde patrones de tráfico, descargas de músicas, historial web y hasta registros médicos. Todos estos datos se graban, almacenan y analizan para habilitar la tecnología y los servicios de los que el mundo depende todos los días.

Para el 2015 se estimaba que se crearían 4,4 millones de puestos de trabajos a nivel mundial para soportar la implementación de la Big Data y por lo que los estudios muestran esta cifra se ha quedado corta. Por lo tanto, las empresas están recolectando grandes volúmenes de información estructurada y no estructurada, para así obtener una ventaja competitiva sobre sus competidores.

Pero en muchos escenarios empresariales, este resultado final es más imaginario que real. Es cierto que los macrodatos son intrínsecamente disruptivos por naturaleza, pero al igual que Twitter, surgió originalmente de su hackathon, destinado a enviar mensajes de texto estándar, a múltiples usuarios, catapultándolos a brindar noticias y servicios de redes sociales que desestabilizan todo, desde noticias e información, hasta gobiernos impopulares, hoy en día no significa que esta sea la tendencia para todas las empresas.

En su libro “Numbersense” Kaiser Fung, un estadístico profesional y profesor adjunto de estadísticas en la Universidad de Nueva York, enfatiza correctamente en el análisis de datos sobre la minería de la Big Data.

“La observación cuidadosa de los datos y las buenas preguntas a partir de ella, no del tamaño de la misma, la capacidad de procesar, almacenar y dar sentidos a los datos”, expresó el profesor en su libro.

Ejemplos de esta afirmación hay varios, tomemos el caso de hace algunos años, donde la Fundación Gates cometío un error, al suponer que las escuelas más pequeñas son mejores para el rendimiento estudiantil, lo que luego se demostró que no era cierto, todo debido a un mal estudio de sus macro datos.

El aspecto desafortunado de la exageración actual sobre la minería de datos, es que no se presta suficiente atención a la precisión de los procesos de extracción y el procesamiento de data. La mayoría de los datos no están estructurados, tienen un formato deficiente, están mal documentados y no están diseñados teniendo en cuenta al científico de datos, por lo que es mas difícil de procesar.

El segundo aspecto que habla Kaiser sobre la Big Data, es que en realidad nos mueve hacia atrás, ya que se obtienen más datos y se pasan más tiempo analizando, argumentado y validando, y replicando los resultados.

Deja un comentario

Loading data ...
Comparison
View chart compare
View table compare