El análisis de datos se ha convertido en una actividad cada vez más común para todas las empresas. Cuando realizamos tareas tan sencillas como enviar un mail masivo por ejemplo, nos interesa conocer al menos cuántas personas abrieron el correo y cuántas hicieron click hacia los enlaces. Con el tiempo, nos interesará seguramente ir determinando qué contenidos interesan a los distintos contactos de nuestra base de datos para ir segmentándola y quiénes son nuestros “lectores” más leales. Si quisiéramos, por ejemplo, vender algo a través del mail, nos ayudaría la segmentación y el conocimiento de que tan “fidelizados” están los “prospectos”. Lo más seguro es que si no hubiese una alta tasa de fidelización, utilizaríamos algunos contenidos para “nutrir” a nuestros contactos.
El párrafo anterior, podría ser una típica ruta comunicacional en una empresa y encierra varios elementos a los que hay que poner atención para poder llevar a cabo con éxito un proceso de levantamiento, análisis y uso de datos. Desde 1996 contamos con una metodología estandarizada (hay más pero esta sigue siendo la más utilizada) denominada CRISP-DM (del inglés Cross Industry Standard Process for Data Mining). Es un modelo que describe las etapas más comunes que utilizan los expertos en minería de datos.
El proceso tiene 6 etapas
Comprensión del negocio. Lo primero y más relevante es tener claridad respecto al negocio y el problema/reto/oportunidad que queremos resolver a través de los datos.
Comprensión de datos. Una vez tenemos claridad del problema, debemos enfocarnos en el centro de esta metodología (los datos). La obtención, calidad y manejo de los datos es crítica para que el éxito del proyecto de “ciencia de datos”. Entender desde dónde se obtendrán los datos, su naturaleza, calidad y potenciales problemas, es clave. Por ejemplo, si volvemos al párrafo inicial, el envío de un mail masivo, podría comenzar a una base de datos construida a partir de usuarios de un sitio web o los servicios de una empresa. Hay algunos proyectos que optan por comprar bases de datos. Es entendible, pero lo más probable es que compren datos que no les sirvan. Otras optan por enviar a bases de datos de terceros, también es una opción, pero si el tercero no tiene una alta fidelización, lo más probable es que paguen por el uso, pero obtengan muy bajos resultados.
Un punto adicional, es que en todo el mundo el tratamiento de datos personales está muy regulado, por lo que se debe ser muy cauteloso para no cometer alguna ilegalidad. Por otro lado, se debe ser muy cuidadoso con los datos, debido a que a más datos, más nos volveremos “apetecibles” para los delincuentes informáticos.
Preparación de datos. Una vez tenemos los datos iniciales, viene una etapa de preparación, que cubre las actividades necesarias para construir nuestro conjunto de datos. Estas actividades son, entre otras, la selección de tablas, registros, atributos, la transformación y la limpieza de los datos.
Modelamiento. Una vez tenemos nuestros datos preparados, debemos pasar a la etapa de modelamiento, en la cual buscaremos respuesta a lo que hayamos definido como objetivo del proyecto de datos en la primera etapa. El modelamiento puede ir desde cosas bien simples, hasta técnicas muy complejas. Si seguimos nuestro ejemplo inicial, podríamos crear un modelo simple que nos ayude a determinar a través de acciones (conducta), los intereses de las personas que están en nuestra base de datos. Por ejemplo podríamos enviar algunos correos en un lapso de tiempo, con contenidos y enlaces a distintos temas. Las personas que consistentemente abran esos contenidos y enlaces, podríamos decir que están interesadas en un tema en particular. Esto es lo que en marketing de contenidos llamamos “scoring”.
Evaluación. En esta etapa se revisa que el proceso completo y se comparan los resultados que se obtendrán con los resultados que nos propusimos al comienzo. Antes de su “despliegue” o implementación, suelen hacerse algunas pruebas piloto con grupos reducidos que permitan probar la calidad del modelo.
Implementación. En la etapa de despliegue o implementación, se pone en marcha el modelo, pero ciertamente no es la etapa final del proyecto. Por lo general, los proyectos de ciencia de datos, requieren de una revisión permanente, dada la naturaleza cambiante de los negocios, de los usuarios, de las técnicas y tecnologías.
Cabe destacar además, que esta metodología, considera una iteración constante entre cada etapa y su predecesora y entre el modelo creado y el entendimiento del negocio. Mira el modelo completo en el siguiente cuadro.