Errores del Big Data que debemos abordar

Errores del Big Data que debemos abordar

 

En los últimos años ha habido muchas discusiones sobre el Big Data. Estas se han centrado en las increíbles oportunidades que proporciona esta nueva tecnología. La conclusión de estas discusiones es que el uso del Big Data puede ser algo preocupante. Aunque coincidimos con la opinión de que el Big Data es increíble, al igual que ocurre con cualquier nueva tecnología, esta tiene algunos fallos. En este post hablaremos de lo que podría salir mal con las implementaciones del Big Data.

¡Sin privacidad para ti!

Por lo general, cuando la gente piensa sobre los posibles problemas del Big Data, lo primero y último en lo que suelen pensar es en la privacidad.

El nombre lo dice todo: el Big Data depende de la recopilación de mucha información, y cuanto más privada sea, mayor eficiencia tendrán los algoritmos para alcanzar conclusiones no tan obvias. En pocas palabras, la información privada es el polvo de hadas de la poderosa magia del Big Data.

Este polvo de hadas tiende a esparcirse con frecuencia y se queda por las oscuras esquinas. Sin embargo, es algo más que eso: hay toda una serie de cuestiones menos triviales vinculadas entre sí de forma complicada.

Es pura ciencia (en realidad, no)

La gente considera las soluciones del Big Data como una ciencia. Pero el problema es que los algoritmos son más bien como la ingeniería. Una gran diferencia.

Una buena comparación podría ser la física frente a los proyectiles. La física es sin duda una ciencia: cada parte de ella ha sido investigada y comprobada, tanto teóricamente como de forma experimental; por lo tanto, ha sido verificada por la comunidad científica, porque así es como funciona la ciencia.

Además, la ciencia siempre está abierta; por lo tanto, todo se puede volver a comprobar en cualquier momento por alguien que esté interesado. Y si aparece algún problema mayor o si surgen nuevas teorías, es siempre tema de discusión para la comunidad científica mundial.

Los proyectiles son básicamente estructuras de ingeniería basadas en ciertos principios físicos. Y, como ya sabes, en este tema las cosas se pueden venir abajo si el diseño no es lo suficientemente bueno o si las condiciones son “malas”, que es básicamente lo mismo, ya que significa que el diseño no es válido para estas condiciones.

Las matemáticas son indiscutibles, ¿no?

Una de las consecuencias de este malentendido es la falsa autoridad. La gente tiene que confiar en las decisiones de los algoritmos del Big Data, sin discusiones. Excepto en el caso de los profesionales matemáticos, que podrían desmentir uno u otro modelo de Big Data o uno u otro algoritmo, si tuvieran acceso a ellos. Pero, ¿realmente pueden?

La caja negra es muy negra

Aunque tengas un gran conocimiento y experiencia en matemáticas y quieras averiguar cómo funciona exactamente uno u otro algoritmo, no se suele conseguir el acceso. Esto se debe a que el software es comercial, y su código fuente es privado. Por lo general, los investigadores no suelen mostrar lo que hay bajo el capó privado. Algo como “gracias por su interés, buenas noches”.

Un ejemplo es el algoritmo que influye en los profesores de Estados  Unidos.

En algunos barrios de Washington DC, por ejemplo, se trató de atajar el alto índice de fracaso escolar con un algoritmo que determinaba la valía de los profesores en base a las notas de sus alumnos. Aquellos que no superaban cierta calificación eran inmediatamente despedidos. Este modelo auspició un sistema injusto, por el cual muchos profesores inflaban las notas de sus alumnos para salvar su empleo. El modelo no tenía en cuenta la difícil situación personal de muchos de esos alumnos, ni la metodología empleada por los profesores del curso anterior.

Otro ejemplo de WMD en el sector educativo lo compone el ránking de mejores escuelas del US News, basado en una visión incompleta de lo que representa la calidad en la enseñanza. La injusticia se retroalimenta, beneficiando a las escuelas que aparecen en lo más alto del ránking, mientras que aquellas que aparecen en peores posiciones tendrán cada vez más difícil atraer a los mejores profesores y estudiantes del país.

 

Buscando trabajo:

En sus procesos de contratación, algunas empresas determinan que aquellos aspirantes que pagan sus facturas prontamente tienen más probabilidades de ser empleados responsables.

Una cosa dentro, otra fuera

Como los algoritmos son opacos, los datos de entrada también lo son. Un operador de un software de Big Data no puede saber con seguridad qué datos ha procesado el algoritmo y cuáles no. Por lo tanto, algunos datos pueden impactar dos veces en los resultados, primero por el algoritmo y segundo por el operador. O, al contrario, puede que algún dato importante no quede reflejado si el operador cree, por error, que ya está incluido en el resultado, y en realidad no ha sido considerado por el algoritmo.

Por ejemplo, la policía entra a un barrio con un alto nivel de crimen. Su software les advierte que hay una probabilidad del 55 % de que el hombre que está frente a ellos sea un ladrón. El hombre tiene una maleta sospechosa, pero la policía no sabe si la herramienta de algoritmo ha tenido esto en cuenta o no. Ellos tienen que decidir si la maleta hace que el hombre sea más o menos sospechoso.

Por no hablar de que, simplemente, los datos de entrada pueden contener errores, o no contener información de vital importancia para conseguir la predicción correcta.

¿El vaso está medio lleno o medio vacío?

El resultado tampoco es muy transparente y puede ser malinterpretado. Los números pueden ser subjetivos y dos personas distintas pueden interpretarlos de forma completamente diferente. Por ejemplo, ¿qué es un 30 % de probabilidad? La interpretación puede variar desde “probablemente no” a “probablemente sí”, dependiendo de muchos factores que nunca puedes prever.

Aún peor, esta calificación de probabilidad puede ser utilizada como una forma de competición: a pesar de que, por ejemplo, la probabilidad de que una persona sea condenada a algún tipo de crimen, no sea suficiente como para ser considerada seriamente, en algunas circunstancias puede ser utilizada para aislar a ciertas personas.

Por ejemplo, en Estados Unidos utilizan tales algoritmos por seguridad, intentando predecir la probabilidad de que una persona pueda revelar información. Y ya que hay mucha gente compitiendo por trabajo, se encuentran muy cómodos prescindiendo de algunos bajo estos criterios, aunque la probabilidad no sea muy significativa, simplemente esté un poco por encima de la media.

¿Sin prejuicios?

Considerando todos los problemas antes mencionados, podemos decir que una de las ventajas más promovidas del Big Data es que no tiene “prejuicios”, lo cual no es del todo cierto. Una decisión tomada por un humano basada en cálculos hechos por un algoritmo que ha diseñado un humano, no deja de ser una decisión tomada por un humano. Puede o no ser prejuiciosa. El problema es que, con un algoritmo oscuro y datos opacos, nunca se sabe. Y realmente no puedes cambiarlo, ya que está cifrado en un software.

Bienvenido al Lado oscuro

La predicción de algoritmos también es vulnerable de recibir una retroalimentación que haga cumplir profecías. Por ejemplo, un algoritmo utilizado por el Departamento de Policía de Chicago puede tachar a un niño de ser una persona potencialmente peligrosa. Luego, la policía empieza a vigilarlo, a visitarlo, etc. El niño ve que la policía lo trata como un criminal a pesar de que no ha hecho nada, y empieza a actuar de acuerdo al trato que le han dado. Entonces se convierte en un pandillero, solo por haber sido ofendido por la policía.

 “Si a un policía le toca hacer guardia en un área donde el algoritmo le dice: “Tienes un 70 % de probabilidades de encontrarte a un ladrón en esta zona”, ¿va a encontrarlo porque le han dicho que “tiene probabilidades de hacerlo?”.

Sin salida

Si cualquier organización gubernamental o comercial emplea algoritmos de Big Data y no te gusta, no puedes decir: “Hasta aquí, lo dejo”. Nadie te va a preguntar si quieres ser parte de la investigación del Big Data o no. O peor aún: no te van a decir si ya eres parte de ella.

Vale, no me malinterpretéis: no me refiero a que todos los errores antes mencionados sean una buena razón para que la humanidad rechace los algoritmos de predicción avanzada. Obviamente, el Big Data está empezando y ha venido para quedarse definitivamente. Pero tal vez es el momento perfecto para reflexionar sobre estos problemas, y que luego no sea demasiado tarde para solucionarlos.

Deberíamos crear algoritmos y datos de entrada más transparentes y protegidos, conceder a los investigadores independientes el acceso al código fuente, poner en orden la legislación, empezar a informar a la gente de lo que está pasando con este tema “matemático”. Y, definitivamente, tenemos que aprender de los errores del pasado.