Inicio Enrique Dans El racismo de los algoritmos y el sexo de los ángeles

El racismo de los algoritmos y el sexo de los ángeles

Marina Velasco, periodista de El HuffPost, me llamó para hablar sobre el sesgo de los algoritmos, y ayer publicó su artículo titulado «Cómo los algoritmos te discriminan por origen racial y por género» (pdf), en el que me cita.

Mi idea durante la conversación con Marina era la de luchar contra un estereotipo muy evidente: el de que los algoritmos, de alguna manera, hacen las cosas mejor que las personas. El origen de esa idea es evidente: como bien decía Arthur C. Clarke, «toda tecnología lo suficientemente avanzada es indistinguible de la magia», lo que nos lleva a que el desconocimiento en torno a lo que es un algoritmo los haga habitualmente protagonistas de todo tipo de creencias, un tema sobre el que ya he escrito en otras ocasiones.

Por supuesto, lo peor que podemos tener es una serie de personas en la sociedad temerosas y desconfiadas con respecto a la supuesta maldad de los algoritmos. Pero del mismo modo, es igualmente peligroso tener segmentos de la población confiados en que un algoritmo hará las cosas inherentemente mejor que una persona, porque ambos supuestos resultan igualmente triviales y absurdos: el algoritmo hace las cosas en función de los datos con los que cuenta para desarrollarse y entrenarse.

Recurriendo a algoritmos cada vez más fácilmente disponibles y utilizables por cualquiera, como los que construyen ilustraciones a partir de una breve descripción en inglés, cuando hacen su trabajo, recurren a una enorme base de datos de ilustraciones que han sido previamente etiquetadas en función de su contenido. Si le pedimos que dibuje a un personaje determinado, ¿qué hace el algoritmo? Simplemente se va a su base de datos, localiza todas las ilustraciones etiquetadas con el nombre de ese personaje, y dibuja algún tipo de composición con los elementos comunes de esas ilustraciones.

Si a ese personaje lo retratan habitualmente con una pose angelical y rodeado de nubes, lo dibujará con características similares, mientras que si de manera reiterativa, las ilustraciones con las que cuentan tienden a mostrarlo con aspecto demoníaco y entre rocas semifundidas en tonos rojizos, probablemente generará una imagen con evocaciones satánicas. ¿Quiere eso decir que el algoritmo es particularmente proclive a evaluar a esa persona como buena o mala, a otorgarle una connotación positiva o negativa? En absoluto: ese sesgo es, únicamente, el resultado de la información que el algoritmo tenía a su alcance para procesar.

Ese tipo de sesgos que erróneamente se atribuyen «al algoritmo», por tanto, provienen en realidad de las colecciones de datos de las que proviene. En algunas ocasiones se podrá corregir simplemente evaluando esos datos y corrigiendo eventuales sesgos estadísticos, eliminando datos que reflejen una predominancia concreta, o eliminando outliers, puntos discordantes o anómalos.

En otras, el sesgo provendrá de un sesgo real y pre-existente: si en los Estados Unidos utilizamos datos históricos para, por ejemplo, conceder o no préstamos bancarios, seguramente nos encontraremos con que, a lo largo del tiempo, el número de impagos ha sido mayor en familias de determinado origen racial que han tendido a tener un estatus socioeconómico más humilde, y por tanto, el algoritmo tenderá a denegar esos préstamos a quienes posean ese origen étnico.

De hecho, es posible que lo haga aunque no cuente con el dato específico, porque seguramente será capaz de deducirlo en función de otros parámetros, desde la residencia al nombre, pasando por otras muchas posibilidades. ¿Es racista el algoritmo? No, lo que es racista es la colección de datos con la que lo hemos definido o entrenado, por mucho que sean rigurosamente correctos.

Con el famoso algoritmo machista que Amazon terminó eliminando porque tendía invariablemente a seleccionar candidatos masculinos ocurre lo mismo: si históricamente, los trabajadores que han dado mejores resultados a lo largo de los años han sido varones, el algoritmo tenderá a seleccionar candidatos varones. ¿Ah, que durante muchos años, los perfiles que se presentaban a determinados tipos de puestos en la compañía han sido de manera aplastantemente elevada, varones? Vaya, qué pequeño detalle sin importancia, ¿no?

Al final, estadística. Y afortunadamente, la estadística hace muchos, muchísimos años que nos permite comprobar las características de las distribuciones de datos que suministramos a un algoritmo: la normalidad de su distribución, sus descriptivos… si una variable es marcadamente no normal, deberemos evaluar la conveniencia de introducirla o no en el cálculo, o incluso, de emplear técnicas de corrección estadística adecuadas para compensar un sesgo determinado. Todo ello dependerá, lógicamente, de los fines del algoritmo y de lo que esperemos extraer de él.

Lo importante es entender que un algoritmo no es más que los elementos utilizados en su diseño y entrenamiento. Si partimos de una muestra de datos sesgada de por sí, si es relativamente pequeña, o si nos dedicamos a hacer sub-muestras persistentemente en ella con el fin de entrenar al algoritmo, es muy posible que esos sesgos se manifiesten en el resultado, y que resulte difícil localizarlos hasta que llegue alguien y los experimente o le dé por comprobarlos.

Adscribir a un algoritmo un sesgo determinado o creer que por el hecho de que una decisión provenga de un algoritmo va a ser mejor o peor es, simplemente, antropomorfizar la estadística y adscribir una «personalidad» determinada a algo que no la tiene.

Cuanto antes entendamos esto, más y mejor podremos avanzar poniendo algoritmos allá donde realmente vayan a ser útiles.

Publicado en enriquedans.com (29.08.2022)

Salir de la versión móvil