Un algoritmo alimentado con 37.000 imágenes de todos los anuarios escolares de la historia revela la evolución de la sonrisa y el peinado. ¡Esto es el BIG DATA!
The Physics arXiv Blog
La minería de datos ha cambiado nuestra manera de considerar la información. Los algoritmos de aprendizaje de máquinas ya son capaces de procesar de forma rutinaria conjuntos de datos de conversaciones de Twitter, patrones de viajes, llamadas telefónicas e historiales médicos, entre otras cosas. Y los descubrimientos que aporta esto están mejorando drásticamente nuestra comprensión sobre la comunicación, los viajes y otra multitud de aspectos.
Pero existe otro conjunto de datos históricos que ha sido ignorado en gran parte por la comunidad de expertos en big data: las fotografías.
Su análisis es un reto más amplio pues, para empezar, el conjunto de datos se remonta a hace 150 años, en el alba de la fotografía. Y la información que contienen puede resultar difícil de descifrar, a menudo porque es demasiado compleja o mundana para ser descrita con palabras.
Hoy esto cambia gracias al trabajo de Shiry Ginosar de la Universidad de California en Berkeley (EEUU) y unos compañeros, que son los pioneros de un enfoque de visión de máquinas para la minería de datos en las fotografías comunes.
Empezaron con una base de datos relativamente sencilla: las fotos de los anuarios de los institutos estadounidenses que datan desde 1905. Estas fotos han sido digitalizadas por las bibliotecas locales de todo Estados Unidos y muestran tomas frontales de los individuos en una pose estándar.
El equipo de Ginosar descargó más de 150.000 de estos retratos. Después de eliminar las que no eran tomas completamente frontales, les quedaban unas 37.000 imágenes de más de 800 anuarios.
Clasificaron los retratos por década y superpusieron las imágenes para generar un «promedio de cara» para cada época. Este proceso reveló otras facciones «medias» para cada época, como los peinados, la ropa, el estilo de gafas y hasta las expresiones faciales «medias». La imagen de este blog muestra estos promedios de hombre y mujer de cada década.
Los resultados representan una lectura interesante. Una característica particularmente llamativa es la evolución de las sonrisas. El equipo de Ginosar explica que durante la primera época de la fotografía, la mayoría de la gente adoptaba la misma pose que habría utilizado para un retrato pintado, una expresión neutra que resultaría fácil de aguantar durante largo rato.
«La etiqueta y los estándares de belleza dictaban que la boca se mantuviera más cerrada, lo que generaba la recomendación de decir palabras similares a «luz» (en lugar de «patata») mientras se sacaba la fotografía», explica el equipo de Ginosar.
Pero eso cambió durante el siglo XX, mientras la fotografía se volvía más popular. En particular, la empresa de fotografía Kodak empleaba la publicidad para popularizar la idea se sonreír en las fotos para que las imágenes contengan recuerdos felices.
Sea cual sea la razón, la sonrisa se ha vuelto mucho más popular. Ginosar afirma: «Ahora damos por sentado que debemos sonreír cuando nos sacan una foto».
Y los datos respaldan esta afirmación. El equipo desarrolló un algoritmo para determinar el grado de curvatura de los labios en las fotografías que mostró una clara tendencia de aumento de la intensidad de la sonrisa con el transcurro del tiempo.
Los datos también revelan otra tendencia. «Las mujeres sonríen más que los hombres», afirman. Esto no es un descubrimiento nuevo, de hecho se ha discutido durante décadas. Pero en el pasado, los datos solo podían recopilarse mediante un meticuloso análisis manual de miles de fotografías.
Una comparación con la técnica del equipo de Ginosar demuestra su potencia. «Al utilizar una gran colección de datos históricos y un sencillo detector de sonrisa, llegamos a la misma conclusión con una cantidad de anotaciones mínima y prácticamente sin esfuerzos manuales», hacen constar.
Los datos también señalan otras tendencias. El equipo remarca la evolución de los peinados. Sus datos destacan: «Los peinados con ondas de la década de 1930. Los peinados rizados de las décadas de 1940 y 1950. El mop-top (pelo tipo Beattle), el corte de alas y el corte burbuja de la década de 1960. El pelo largo, los afros y tupés de la década de 1970. Las permanentes y flequillos de la décadas de 1980 y 1990, y el largo pelo liso que se estilaba en la década de 2000″.
Otras cosas no han cambiado sin embargo. Por ejemplo, la vestimenta por defecto de los hombres durante todo el siglo XX ha sido el traje.
Por supuesto, este conjunto de datos tiene sus limitaciones. Por ejemplo, menos del 10% de los jóvenes de 18 años se graduaban del instituto a principios de siglo, pero esta cifra superó el 50% a finales de la década de 1960. Además, la población de afroamericanos no fue representada en los institutos hasta mediados del siglo XX, creando un sesgo importante en el conjunto de datos.
No obstante, el trabajo proporciona una fascinante visión de la manera en la que se podrían aprovechar los conjuntos de datos en el futuro. Y la evolución de la sonrisa y los peinados son solo el principio.
No resulta difícil imaginar otras características que se puedan extraer de las imágenes aparentemente mundanas. Por ejemplo, el historial de fotos familiares probablemente contenga una amplia base de datos acerca de la evolución del papel pintado, la ropa, los juguetes infantiles y así.
De momento, esta base de datos está en gran parte sin explotar. Pero parece que esto cambiará en un futuro no muy distante.
Fuente: MIT Technology Review
Ref: arxiv.org/abs/1511.02575: A Century of Portraits: A Visual Historical Record of American High School Yearbooks