Lo que Big Data se llevó (y lo que guarda)

“Nada extraordinario llega a la vida de los mortales separado de la desgracia”

Sófocles

Allá por el 2018, recuerdo haber estado leyendo en las portadas de noticias sobre el escándalo de Facebook y Cambridge Analytica y… que no me haya importado en absoluto. Sin duda, como millenial me atraía la idea de ver a Mark Zuckerberg sudando la gota gorda frente a un puñado de jueces con mal temperamento, pero más allá de eso, mi interés no escapaba del puro deseo de espectáculo. Esto no era más que otro estímulo para romper con la monotonía de lo cotidiano.

Lo que no sabía era que se estaba gestando el mayor escándalo hasta la fecha en la historia del Big Data.

Big Data…

Sería erróneo pensar que el mundo del Big Data sólo afecta a los científicos de datos, ingenieros y arquitectos. Sería erróneo incluso pensar que sólo el mundo de IT recibe los efectos de este nuevo paradigma. Lo cierto en realidad es que absolutamente todas las personas son atravesadas por las transformaciones de un cambio de pensamiento.

Este escenario me lleva a reflexionar sobre las maneras bajo las cuales el denominado “Big Data” modifica nuestra vida, nuestra cotidianidad, nuestras relaciones interpersonales, incluso nuestra propia manera de comprender el mundo. El asombro es doble cuando el efecto se produce en forma transversal, invisible y omnipresente, como ha sucedido (desde hace años).

Pero antes de conversar sobre los quiebres provocados por el Big Data, sería mejor precisar de qué hablamos cuando hablamos de Big Data.

A day in the data

Pareciera ser que la palabra “data” inunda cada aspectos de nuestras vidas, y la razón es que es correcto. Geolocalización de colonias de abejas, vibraciones de los engranajes internos de un motor, rotación de agujeros negros supermasivos, incluso la distancia hacia el corpiño con el tamaño óptimo (no es chiste)… todo es reducible al lenguaje de la data, dando lugar así a la sociedad datificada, una sociedad que formateo y cuantifica todo lo que se mueve bajo el Sol. Tal es así, que en 2017, “The Economist” publicó una historia titulada “The world’s most valuable resource is no longer oil, but data“.

Se estima que cada día:

✔ 500 millones de tweets son enviados
✔ 294 mil millones de emails son enviados
✔ 4 petabytes de data son creados en Facebook
✔ 4 terabytes de data son creados desde autos conectados a Internet 65 mil millones de mensajes son enviados por WhatsApp
✔ 5 mil millones búsquedas son realizadas en la web


Figura 1: A day in data. Fuente: Raconteur.
URL https://www.raconteur.net/infographics/a-day-in-data/

Teniendo en cuenta la gigantesca cantidad de eventos resultantes (e incluso en ascenso con el auge de la Internet of Things (sistemas de objetos físicos conectados a Internet)), no sorprende el nacimiento de una nueva rama de estudio, denominada “Big Data”. Este concepto toma protagonismo de escena cuando la cantidad de ceros involucrados en el volumen de datos supera las capacidades de los métodos convencionales de recopilación, procesado y transformación de la data.

Si se pudiera resumir Big Data en una frase, sería esta: es la capacidad de analizar poblaciones enteras en forma directa, en lugar de tener que recurrir a muestras “representativas”.

Lo importante es entender las repercusiones de esta frase.

Is God dead?


Figura 2: False God. Newell, A. 2016. Batman v superman: Dawn of Justice

Desde el siglo XIX, la sociedad ha dependido de la disponibilidad de muestras representativas para inferir el comportamiento de la población en su totalidad. No obstante, esto ha sido el desenlace obligatorio de un pensamiento restringido al “small data” y baja disponibilidad de recursos tecnológicos. Dicho llanamente, analizar una población entera presentaba el escenario idóneo, pero técnicamente irrealizable.

Por otro lado, cabe destacar un concepto técnico. Una correlación simplemente sugiere un grado de asociación entre una o más variables. Una causalidad, en contraste, conlleva a pensar en una dependencia más profunda,

al mostrar que una variable afecta el comportamiento de otra, conformando una relación de causa-efecto desplegada en el tiempo. Las correlaciones no nos dicen precisamente por qué algo sucede, sino que se contentan con indicar que está sucediendo.

El quiebre de las nociones de “muestra significativa” y “relación de causa- efecto” es un atisbo del mundo venidero, así como el paradigma que rige el presente. Big Data trata sobre el qué, independientemente de las razones que ocurren por debajo del telón. La realidad profunda de la causalidad ha dejado paso a la predominancia de las correlaciones. Asimismo, el mundo del qué, anteriormente investigado inicialmente con un abanico de hipótesis que luego eran puestas a prueba a partir de muestras simples y pequeñas, ahora ha dado lugar a las relaciones funcionales encontradas en las muestras gigantescas.

Esto es esperanzador y espeluznante al mismo tiempo, ya que si bien la intuición y creatividad humana sigue jugando un rol protagónico (al menos por ahora), las explicaciones causales van perdiendo predominancia en el terreno de la justificación. Y cuando la satisfacción con la obtención de las correlaciones correctas se combina con la potencialidad de observar poblaciones enteras, se despliegan algunos atributos llamativos de la sociedad datificada.

The great gig in the sky

We bombarded them through blogs, websites, articles, videos on every platform you can imagine until they saw the world the way we wanted them to – until they voted for our candidate.”

Kaiser, directora de desarrollo de negocio de Cambridge Analytica

¿Pero por qué tanto escándalo? Resumidamente, el escándalo de Facebook – Cambridge Analytica se había producido porque esta última había creado una aplicación denominada “thisisyourdigitallife” en 2014. Los usuarios recibían dinero a cambio de completar un test psicológico. Luego, la app no sólo recogía los datos de los sujetos testeados, sino también de su red de amistades en Facebook, creando así una red de millones de usuarios y efectuando lo que se denomina técnicamente como psychographic profiling (establecer los perfiles psicológicos de una población, agrupados por zonas geográficas).

En particular, la perfilización llevada a cabo por Cambridge Analytica estaba basada en el modelo OCEAN (también llamado “Big Five”: openess, conscientiousness, extraversion, agreeableness, neuroticism), cuya información neta era finalmente utilizada con fines políticos en detrimento y sin consentimiento previo de los consumidores y no consumidores. Desde el perfil sociológico de un determinado Estado hasta los “issues” de relevancia, todo ello era explotado para redirigir el discurso hacia temáticas de influencia.


Figura 3: Mr. Alexander Nix, CEO de Cambridge Analytica), Concordia Annual Summit in New York, 2016. Exposición sobre el poder de Big Data en elecciones globales. URL: https://www.youtube.com/watch?v=n8Dd5aVXLCc

Podría pensarse que esto es producto de una circunstancia aislada, impulsada por una empresa privada. Sin embargo, un evento análogo fue gestado por la empresa de consultoría tecnológica Aggregate IQ, que impulsó la división social que desembocaría luego en el fenómeno del Brexit, con el consecuente abandono de Gran Bretaña del bloque de la UE. Los métodos de antaño dejaban paso a la nueva política social de advertising personalizado.

Estos sucesos nos obligan a encarar otra de las principales problemáticas del mundo Big Data, a saber: la privacidad de la información, y su potencial utilización.

Work it, make it, do it, makes us

Netflix conoce nuestro gusto cinematográfico. Amazon recomienda el mejor libro de acuerdo a las preferencias del consumidor. Facebook conoce nuestros likes y dislikes (y como vimos, incluso nuestra tendencia política). Google posee un registro de cada interrogante al que hemos buscado respuesta… especialmente aquellas que no nos atrevemos a preguntar en voz alta.

Pareciera ser que los algoritmos nos conocen más profundamente que nuestros amigos más íntimos. Y si bien esto concluye en mejoras en los productos de consumo para ofrecer un servicio completamente individualizado (una suerte de “traje a medida”), no obstante también juega constantemente con la transgresión de nuestros límites de intimidad.

“Surveillance is the business model of the internet”. Si bien las revelaciones publicadas por Cambridge Analytica, Aggregate IQ o Edward Snowden acrecentaron la preocupación de los ciudadanos por proteger su información personal, el modelo de negocio no ha sido modificado. Incluso se ha inventado un nuevo término, el “surveillance capitalism” para conceptualizar esta nueva faceta de desarrollo socio-económico, con origen en las computadoras personales.

Y el problema de la privacidad es la primera etapa de la carrera. Lo que sigue es una transición hacia la probabilidad: prontamente, los algoritmos predecirán la esperanza de vida de los individuos para determinar su valor como individuos (como en Gattaca), o incluso predecir la probabilidad de cometer un crimen antes de cometerlo (como en Minority Report). Esto abre el debate de choque entre el libre albedrío y la estadística.

¿En qué rol quedan el libre albedrío, la intuición, el aprendizaje por experiencia, el actuar en contradicción con la información disponible? Se vislumbra la era en la cual cada una de nuestras preferencias y cualidades que nos distinguen como individuos separados del resto sean acompañadas, e incluso predeterminadas, por una dimensión cuantitativa de alto calibre. Y esto, como se muestra, es un héroe de dos caras.

Fake it till you make it

Otra de las principales razones por las cuales semejante volumen de datos es generado, procesado, almacenado y consumido por usuarios en forma global es porque no existen controles exhaustivos que respalden la calidad de dicho contenido, así como la verificación desde fuentes oficiales que garanticen un

rango mínimo de credibilidad. Esta contingencia ha dado lugar a un fenómeno completamente nuevo y propio de nuestro siglo denominado “Fake News“.

Este suceso ocurre debido a que las recompensas en un sistema de comunicación basado en redes sociales, con un caudal acelerado de proliferación de información, se destinan principalmente a los primeros en publicar, cancelando así el proceso de verificación por parte de editores para minimizar los tiempos de producción. Como resultado forzoso, los métodos de verificación son dejados en manos del mismo consumidor final de la noticia.

El problema alcanza tales magnitudes que ya existen hoy día proyectos, tales como MediaWise o la “Italian Communications Authority“, destinados al adecuado discernimiento de las noticias falsas en Internet. Mientras tanto, el discernimiento de verdad queda a consta del observador.

Como dato adicional, Smarter Every Day propone una sucesión de 3 pasos para diferenciar las noticias falsas, a saber:

1. ¿Quién se encuentra detrás de la información? (revisión de autor)

2. ¿Cuál es la evidencia? (revisión de material)

3.¿Qué dicen otras fuentes? (revisión de fuentes alternativas)


Figura 4 Why Your Newsfeed Sucks – Smarter Every Day 212. Recomendaciones para distinguir las “Fake News”. URL https://www.youtube.com/watch?v=MUiYglgGbos&t=631s

Conclusiones: ¿qué nos queda?

Comenzamos a caer en la cuenta del impacto que el fenómeno de Big Data genera sobre nuestras identidades, nuestro dominio, cómo vemos a los demás e incluso a nosotros mismos.

Esto no es un llamado conspirativo hacia el advenimiento de una sociedad orwelliana. Al contrario, el ascenso del Big Data, como toda gran revolución social, puede traer resultados fructíferos, como ya ha sabido manifestar en diversas áreas de la ciencia y la industria. Sin embargo, esta potencia creadora se expresa en un nuevo mundo, marcado a fuego por la ola de desinformación, el debilitamiento de la intimidad personal y las restricciones sobre la libertad colectiva. La toma de responsabilidad se asimila a partir de la plena consciencia acerca de los límites a imponer, tanto desde individuos atomizados como regulaciones legales promovidas por entidades dedicadas, en contraposición con el estado de arte actual de propuestas basadas en la auto- regulación. Se evidencia que este mundo feliz necesitará nuevos principios para salvaguardar la sanidad de los individuos que lo componen.

Big Data es esto, es el todo. Son las dos caras del héroe. Eso quizás cause confusión. Pero como todo gran poder conlleva una gran responsabilidad, el instrumento puede tornarse vacuna o enfermedad, según la mano que la utilice, y la cantidad de manipulación que estemos dispuestos a tolerar.

Referencias y recomendaciones

  • Amer, K., & Noujaim, J. 2019. The Great Hack. Netflix.
  • Davis, Kord 2012. Ethics of Big Data: Balancing risk and innovation, O’Reilly. USA
  • Desjardins, J. 2019. How Much Data is Generated Each Day?. URL https://www.visualcapitalist.com/how-much-data-is-generated-each-day/
  • O’Neill, C. 2016. Weapons of math destruction: How Big Data increases inequality and threatens democracy. USA
  • Orlowski, Jeff 2020. The Social Dilemma. Netflix
  • Schäfer, M. K., Es, K. 2017. The Datafied Society: Studying Culture through Data. Amsterdam University Press
  • Schönberger, V. M., Cukier, K. 2013. Big Data: A Revolution That Will Transform How We Live, Work, and Think. USA
  • Smarter Every Day 2019, March). Why Your Newsfeed Sucks – 212. URL https://www.youtube.com/watch?v=MUiYglgGbos&t=631s
  • Stawski, S., Nefkens, M. 2016. Inflection Point: How the Convergence of Cloud, Mobility, Apps, and Data Will Shape the Future of Business. USA
  • The Economist. 2017, March). The world’s most valuable resource is no longer oil, but data. URL https://www.economist.com/leaders/2017/05/06/the-worlds-most- valuable-resource-is-no-longer-oil-but-data

Don’t Stop Here

More To Explore