Big Data & Los Sistemas de Recomendación para Consumidores

Ya es un hecho que Google sabe nuestros datos personales, lo que estamos buscando, mediante nuestras consultas en su buscador, en el mundo del entretenimiento, Netflix sabe tus preferencias, o que Facebook sabe con quién nos relacionamos y cuánto durarán nuestras relaciones sentimentales. Internet sabe, por ejemplo donde vives, cuánta familia tienes, quiénes son y si tienes mascota, utilizando para ello, una serie de metadatos (ocultos para nosotros), que desvelan la ubicación geográfica en la que se tomó la foto de la familia que compartimos en plataformas como Instagram y otras redes sociales.

Puede suceder que un hijo no sepa qué regalarle a su madre el día de su cumpleaños, pero gracias a Big Data y las implementaciones de herramientas de análisis que han estudiado a fondo su comportamiento en la web (clickstreams analytics), hacen posible saber lo que la madre quiere y no quiere, así como también es capaz de recordar lo que la madre se quería comprar y finalmente no compró, al tiempo que, además, es capaz de predecir lo que la madre desea comprar antes que ella lo agregue en algún carrito de compra.

Uno de los ejemplos más citados cuando se habla del Big Data es la historia real de un padre enfurecido, que reclamó a una importante cadena de hipermercados la retirada de su base de datos de su hija adolescente, a la cual le habían hecho llegar anuncios publicitarios de productos para embarazadas ¿Por qué esta cadena le envió esa publicidad a su hija? Pues por los hábitos de consumo que esa compradora estaba teniendo últimamente: cruzando esa información con los datos que la cadena de hipermercados tenía, la conclusión era que la chica estaba embarazada. Lo cierto es que la compañía no cometió error alguno y la adolescente estaba, efectivamente, en estado, pero aún no se lo había comunicado a sus padres.

Probablemente el mayor uso que se está haciendo en estos momentos Big Data en Internet tiene que ver con las tecnologías de recomendación, por ejemplo, lo utilizamos a diario cuando seguimos las recomendaciones de vídeos que nos hace Youtube en base a los vídeos que hemos visualizado anteriormente, o las recomendaciones de música que nos hace Spotify basadas en nuestro historial de grupos o artistas que hemos escuchado con anterioridad.

Los sistemas de recomendación llevan muchos años utilizándose por parte de negocios como Amazon, para vender muchos más productos de los que los usuarios tenían previsto comprar inicialmente, por lo cual se han convertido en la base de las acciones de remarketing de las que somos destinatarios a diario cuando navegamos por nuestros sitios web favoritos; esto les permite mejorar la tasa de conversión en sus ventas, gracias a las tecnologías de recomendación.

A continuación, ilustramos algunos casos de éxitos en los que los sistemas de recomendación son utilizados por las empresas para mejorar el servicio que ofrecen a los consumidores.

Es una guía urbana y electrónica que ayuda a la gente a encontrar los mejores sitios para comer, hacer compras, beber, relajarse y divertirse. Se basa en las opiniones argumentadas de una comunidad vibrante y activa de residentes locales. Yelp es una forma divertida y fácil de encontrar, comentar y hablar de cosas interesantes (y no tan interesantes) de tu mundo.

Fue fundada en 2004 pero en 6 años se convirtió en un fenómeno internacional. En noviembre de 2010 ya tenía más de 39 millones de visitantes y más de 14 millones de críticas.

Yelp utiliza tecnología Big Data para revisar todas las críticas o mensajes que dejan sus usuarios. Con ello consigue realizar un filtro de revisión automatizado para identificar contenidos sospechosos y minimizar la exposición al consumidor. Además con la tecnología Big Data almacena información del consumidor para después poderle ofrecer un catálogo personalizado de ofertas especiales de sitios, eventos…. al igual que Amazon con su tienda virtual. A todo lo anterior nombrado hay que añadir que hay que gestionar todas las cuentas gratuitas que se crean y fotos que se suben para n enseñar los lugares. Y si quedan dudas de que manejan poca información hay que añadirle toda la información recopilada por las aplicaciones móviles de Smartphone, tabletas…

La tecnología que utiliza Yelp es propiedad para Amazon:

Amazon Elastic MapReduce: para obtener información de interés para sus usuarios.
Amazon Storage Service (Amazon S3): almacenar las fotos y registros de los usuarios diarios alrededor de 100 GB.

Es una aplicación creada para dispositivos móviles como Smartphone y tabletas. Tiene la función de permitir instantáneamente conocer el título de la canción, autor y álbum de la canción que está sonando, con tan solo escuchar unos segundos con el dispositivo la canción.

Tiene una base de datos de más de 60 millones de canciones, más de 200 millones de usuarios registrados. Está disponible en 33 idiomas diferente en los 200 países en los que está presente.

Como funciona Shazam: Nuevamente Shazam utiliza tecnología Big Data de Amazon utiliza concretamente:

Amazon Web Service: con esto Shazam conseguía un conjunto completo de servicios de infraestructura y aplicaciones que permitían ejecutar todo desde la nube.
Amazon DynamoDB: Con esto Shazam conseguía un servicio de bases de datos NoSQL rápido y totalmente gestionado que permite almacenar y recuperar de manera fácil cualquier cantidad de datos.
Amazon Elastic Compute Cloud (Amazon EC2): Servicio web que proporciona capacidad informática con tamaño modificable en la nube, para que en los grandes eventos en los que multitud de usuarios utilizan Shazam puedan ser atendidos correctamente.

Con esta tecnología Shazam ha conseguido estar en el ranking de las 10 aplicaciones más descargadas de todos los sistemas operativos portátiles (Android, IOS, Windows Phone, Blackberry,…).

Facebook es una red social que crece día a día y acumula más de 100 Petabytes. Gran parte de los ingresos de FB son gracias a la publicidad. Gracias a Big Data FB gestiona toda su publicidad de manera inteligente dirigiéndola a los usuarios que la requieren. Otro ejemplo claro de la utilización de Big Data es el etiquetado inteligente que detecta los rostros según los usuarios. Pero el ejemplo más claro es el manejo de las bases de datos de FB donde almacena fotos, perfiles, conversaciones, usuarios en más de 50.000 servidores.

Si a todo esto le añadimos que también recopila información de nuestros dispositivos móviles y de los navegadores que utilizamos nos podemos imaginar la gran cantidad de datos que tiene que manejar FB.

Se utiliza Hadoop para almacenar copias de registro interno y las fuentes de datos de dimensiones y lo utilizan como una fuente para la presentación de informes / análisis y aprendizaje automático.

A fecha de 19/06/2013 tienen 2 grandes grupos: Un grupo 1100-máquina con 8.800 núcleos y un 12 PB de almacenamiento de crudo. Un grupo de 300 máquinas con 2.400 núcleos y unos 3 PB de almacenamiento de crudo. Cada nodo (productos básicos) tiene 8 núcleos y 12 TB de almacenamiento.

Fuente: http://wiki.apache.org/hadoop/PoweredBy#F

Es un servicio de recomendaciones musicales. Para ello LastFM analiza la música que miles de usuarios están escuchando en cada momento y así recopilar información sobre qué canciones le gustan más a cada usuario, con qué frecuencia o momentos del día escuchan las diferentes canciones, etc. Una vez recopilada dicha información se compara con la de millones de oyentes de todo el mundo para así recomendarte la música, los artistas, los álbumes que más les gustan a los usuarios. Además Lo utilizan para el cálculo de tablas, informes sobre canciones más escuchadas en todo el mundo, análisis de funciones de audio a gran escala. Sin olvidarnos que LastFM es capaz de recoger las pistas de MP3 de nuestros dispositivos portátiles y de otros software como Spotify.

Para realizar esto LastFM utiliza Hadoop:

Con más de 100 nodos.
Dual quad-core Xeon L5520@2.27 Ghz y L5630@2.13 Ghz, 24 GB de RAM, 8 TB (4x2TB) / nodo de almacenamiento.

Es la plataforma musical más conocida actualmente. Spotify ofrece múltiples servicios aunque el principal es ofrecer música en “Streming”, es decir, a través de internet, para ello tiene una base de datos con más de 10.000 canciones. No obstante ofrecer música no es su único servicio al igual que LastFM ofrece recomendaciones musicales por gustos, ofrece radios interactivas, posibilidad de conectarse con diversos usuarios para ver la música que escuchan incluso de conectarse a diversas redes sociales.

A continuación se muestran datos recogidos por Spotify en Hadoop:

200 GB de datos comprimidos de usuarios por día.
100 GB de datos de servicios por día.
60+ GB de datos generados por Hadoop al día.
190 nodos por clúster (24 CPUs, 32 GB de RAM, 20 TB almacenamiento de disco duro)
4 PB de capacidad de almacenamiento.

Representa un tercio del tráfico de Internet en hora punta en E.E.U.U. Recientemente la compañía anunció que superó los 80 millones de suscriptores en todo el mundo, de los cuales recoge y monitoriza los datos para entender los hábitos de consumo. Sin embargo, los datos que recogen no sólo son “grandes” en el sentido literal. Es la combinación de estos datos con las técnicas analíticas avanzadas lo que convierte a Netflix una auténtica compañía de Big Data.

El gran secreto de Netflix es su capacidad para predecir los hábitos de visualización. Comenzaron en 2006, antes de dar el paso a emitir videos en Streaming. Pusieron en marcha un concurso premiado con un millón de dólares para encontrar un algoritmo que pudiera precisamente predecir el resultado de una película. Éste llegó en 2009 y desde entonces es clave en su motor de recomendación (aunque obviamente se vaya revisando y actualizando constantemente).

En cualquier negocio, la habilidad de ver el futuro es el santo grial, y Netflix puede estar cerca con “House of Cards”. La serie, dirigida por David Fincher, protagonizada por Kevin Spacey y basada en una popular serie Británica, es hoy en día la pieza de contenido más descargada de Estados Unidos y 40 otros países, de acuerdo con Netflix.

La empresa cuenta con 47 millones de suscriptores en EE.UU. y 33 millones mundialmente, para lo cual procesó los datos y observó los números. Desde antes, ya sabía que una buena cantidad de suscriptores habían descargado la obra de David Fincher, de principio a fin. Sabía también que las películas con Kevin Spacey tenían éxito, así como la versión británica de “House of Cards”. Con estos tres círculos de interés, Netflix fue capaz de definir una intersección del diagrama de Venn que sugería que comprar la serie podría ser una muy buena apuesta en su estrategia de contenido original.

“Dado que tenemos una relación directa con nuestros clientes, sabemos lo que a la gente le gusta mirar y esto nos ayuda a entender que tan grande será el interés por un programa particular. Esto nos dio cierta confianza de que podíamos encontrar una audiencia para una serie como House of Cards”.

Jonathan Friedland, director de comunicaciones de Netflix.

Nuestra plataforma maneja una creciente cantidad de datos (más de 400 mil millones de eventos generados al día), una creciente demanda de la analítica y un aumento del número de usuarios. Para tomar decisiones de negocio, los analistas de datos de Netflix realizan inferencias sobre la data de cerca de 30 millones de “plays” por día, incluyendo cuando se pausa, rebobina y adelanta al mismo tiempo durante el mismo programa, 4 millones de puntuaciones de sus suscriptores, 3 millones de búsquedas así como la hora del día a la que el contenido está siendo consumido y en qué dispositivos.

Netflix es una empresa basada en datos. Muchas de las decisiones de negocio y de productos se basan en conocimientos derivados del análisis de datos. Netflix implementa un Pipeline de Datos, cuya función es es recoger, agregar, procesar y transferir datos a escala de la nube. Casi todas las aplicaciones en Netflix utiliza la Pipeline de datos.

He aquí algunas estadísticas acerca de nuestra línea de datos:

Total aprox. 60 PD Data Warehouse en AWS3 (Amazon Web Services, no HDFS)
Lectura y Escritura de 10% Data Warehouse diariamente.
Aprox. 500 mil millones de eventos y Aprox. 1,3 PB por día.
Aprox. 8 millones de eventos y Aprox. 24 GB por segundo durante las horas picos.
Aprox. 350 usuarios activos.

Hay varios cientos de flujos de eventos que fluyen a través de la tubería. Por ejemplo:

Actividades de visualización de vídeo.
Actividades de interfaz de usuario.
Los registros de errores.
Eventos de rendimiento.
Eventos de solución de problemas y de diagnóstico.