Artículos escritos por Matias Banchero.
En esta ponencia ensayaremos una definición de inteligencia artificial (IA) y el desafío de los sesgos en la actualidad.
La IA es un campo que se inauguró oficialmente hacia el año 1956 en un evento organizado en la universidad de Dartmouth sponsoreado por DARPA a pesar de que Alan Turing ya había presentado hacia 1950 un escrito titulado “Can a machine think?”. Desde entonces se ha ido transformando por lo que valoramos pertinente aclarar qué entendemos nosotros por IA.
Defendemos aquí una definición y clasificación positiva que nos permita ofrecer una “modelización comparativa de las diversas formas de la actividad intelectual y semejantes a la intelectual''y, de lograrlo, “lo que menos nos interesaría es que esta inteligencia fuera una copia exacta de la humana” (Lotman, 1994, p. 99).
Interpretamos que el problema de la IA suele pensarse como algo desvinculado con temas tratados en la filosofía de la historia o en la epistemología de las ciencias sociales, pero aquí mostraremos conexiones que estimamos relevantes, como la aproximación semiótica a la filosofía de la cultura de Iuri Lotman o la teoría de sistemas que propone Niklas Luhmann donde “los medios de comunicación consisten en la producción y tratamiento de la capacidad de irritación del sistema social” (Luhmann, 1991, p. 309), ya que nos parecen autores adecuados para entender cómo operan los algoritmos IA dentro de lo que definiremos como semiosfera (Lotman, 1996, p. 11) y gobernados por las redes globales de plataformas (RGP) que construyen contextos determinantes que muchas veces atizan y deterioran los ecosistemas de comunicación digital. Para ello puntualizamos sobre el genocidio rohingya, donde el sesgo provocado sobre los algoritmos de IA (financiados por Google y Facebook) a partir de las granjas de clickbaits (algo parecido a lo que en Argentina se cononce como granja de “trolls”) irritaron, debilitaron y penetraron dentro de la frontera de la semiosfera birmana, generando violencia en las calles, desplazamientos y muertes. Por otro lado analizaremos casos puntuales de sectores como el sanitario en el cono sur (sobre un estudio del CONICET) en el cual el sesgo se produce durante el proceso de entrenamiento de los algoritmos (por ejemplo el de legado negativo) o casos donde opera en contra de grupos no dominantes o subrepresentados (llamados de subestimación).
Para llegar a los casos, partimos del concepto de tecnología como el “f. conjunto de teorías y de técnicas que permiten el aprovechamiento práctico del conocimiento científico”. Definimos IA, como una “tecnología que puede ser categorizada en función de los objetivos que cumple”. Y algoritmo lo vamos a definir desde el punto de vista de la matemática como “conjunto ordenado de operaciones sistemáticas que permite hacer un cálculo y hallar la solución a un tipo determinado de problemas”.
La IA es entonces un conjunto de algoritmos que realiza una o más funciones y tiene como meta alcanzar objetivos concretos. ¿Qué funciones puede realizar la IA? Siguiendo con la categorización de Russell y Norvig (1995), la IA puede cumplir cuatro tipos de funciones basadas en el razonamiento o en el comportamiento. Ambos pueden buscar asemejarse al comportamiento humano o bien a resolver idealmente desde el razonamiento lógico. No siempre IA se refiere a reemplazar la inteligencia humana sino que puede ser entendida, como en nuestros casos, como un sistema computacional que puede realizar operaciones lógicas, tareas y resolver problemas a una gran velocidad.
Vamos a trabajar el concepto de sesgo principalmente para casos de Machine Learning (ML), campo dentro de la IA en el que el algoritmo es capaz de aprender a resolver algún problema concreto a partir de ser entrenado por grandes cantidades de datos. Lo creemos conveniente porque el tratamiento de los datos junto con el proceso de entrenamiento del modelo representa una de las dos principales fuentes de sesgos.
El segundo caso, como ya hemos mencionado, será el propio proceso de aprendizaje de los AI lo que produce los sesgos, ya sea por la naturaleza de las muestras o bien por la subrepresentación de las mismas.
Definido someramente el terreno por donde nos vamos a mover, los agentes intervinientes, las condiciones y las funciones que definen conceptos tan faltos de consenso como lo son IA/AI y algoritmo, podemos avanzar sobre los impactos prácticos que producen los sesgos.
El debate filosófico estará centrado en principios éticos ampliamente aceptados en occidente como el de libertad de culto o la igualdad ante la ley. Buscamos explicar qué opciones tenemos al encontrarnos con situaciones donde derechos fundamentales se vulneran y qué soluciones podemos aproximar para evitarlas. Cabe señalar, a modo de clickbait, que para poder facilitar el abordaje inicial del problema vamos a decir que el sesgo es definido como un “error sistemático en el que se puede incurrir cuando al hacer muestreos o ensayos se seleccionan o favorecen unas respuestas frente a otras". Nótese aquí dos especies de sesgos, los que tienen que ver con el muestreo y los que se generan al ensayar (en nuestro caso entrenar) con el AI. Añadiremos nosotros a la definición tradicional, con motivo de ampliar la perspectiva de análisis, y analizar temas tan actuales como el discurso del odio y las campañas de desinformación, una causa de sesgo adicional que tiene que ver con la manipulación del “espacio extra-semiótico o alosemiótico” (Lotman, 1996, p. 12) que rodea a la AI. De aquí concluímos que la presente ponencia explorará, a partir de casos, dos grandes fuentes de sesgos: Por un lado el que puede generarse en un espacio externo, y que deliberadamente busca penetrar hacia la semiosfera. Aquí, la única forma de producir resultados sesgados será intentar ingresar a la semiosfera a través de la frontera con datos cargados de prejuicios, y así distorsionar la realidad percibida por los AI. Esto lo estudiaremos en el caso del genocidio rohingya. En el otro extremo tenemos como causa del sesgo al propio entrenamiento de los AI donde el desafío será evitar los sesgos al interior de la propia frontera. El análisis estará centrado en eliminar los sesgos de los modelos matemáticos o bien estudiar si los datos de entrenamiento de los AI son representativos de la realidad sobre la que se quiere trabajar. Esto lo observaremos en el caso de diagnóstico por imágenes proveniente del CONICET.
Para ilustrar las dos fuentes de sesgo propuestas elegimos pensar en la figura del péndulo simple en mecánica clásica. Analizar su movimiento y establecer dos momentos iniciales como referencia.
El péndulo nos ofrece dos posiciones de equilibrio determinadas por los puntos situados por encima de su centro de gravedad (A y B) desde donde podemos iniciar el movimiento oscilatorio que atravesará la frontera C una y otra vez.
En el caso del genocidio rohingya estudiaremos un movimiento A, que parte desde el exterior con la intención de penetrar C, donde los datos o información generada podrán ingresar dentro de la semiosfera si y sólo si son expresados en un lenguaje que los sensores de captación ya que “los puntos de la frontera de la semiosfera pueden ser equiparados a los receptores sensoriales que traducen los irritantes externos al lenguaje de nuestro sistema nervioso, o a los bloques de traducción que adaptan a una determinada esfera semiótica el mundo exterior respecto a ella” (Lotman, 1994, p. 12). En segundo lugar, propondremos el caso más habitual y ampliamente estudiado en la actualidad por investigadores. Nos situaremos en la relación que se establece dentro de la semiosfera (entre C y B) para ver los sesgos durante el proceso de desarrollo y puesta en marcha de los agentes inteligentes. En ambos casos observaremos a la frontera C como un espacio de disputa. Por último mostramos qué herramientas tenemos disponibles para entrenar adecuadamente un algoritmo o AI (en su frontera) para tomar decisiones durante el proceso de oscilación y realimentación que se produce cuando el péndulo se encuentra oscilando entre Ay B. En este último escenario la causa del sesgo puede tener que ver con: La imposibilidad de analizar casos que hubiesen sucedido pero no sucedieron (etiquetas selectivas), problemas en la muestra (donde se penaliza a algún/os colectivo/s) o bien un mal planteamiento del problema o conflicto ético al momento del desarrollo. Para nosotros, en cualquier caso, será central la capacidad humana de trabajar sobre la frontera C con enfoques diversos y multidisciplinarios.
De A a C - El genocidio Rohingya, Myanmar (ex-Birmania)
Información: La palabra “información” se conforma de dos partes: “in” – “formatio”. En latín “formatio” se refiere a la acción de formar o de dar forma, de generar algo. Por su parte el prefijo “in” indica dirección hacia dentro. Este es uno de los extremos del péndulo simple, y la primera fuente de sesgo que analizaremos. El caso que la expone fue resultado de una investigación realizada en 2018 por Naciones Unidas en la cual se concluyó que los rohingya sufrieron un genocidio entre los años 2015 y 2017 donde Google y Facebook tuvieron un rol determinante. Esta etnia predominantemente musulmana y minoritaria en Myanmar sufrió la muerte de más de 10,000 personas (según cálculos conservadores) y alrededor de 700,000 desplazados, a causa del deterioro y distorsiones generadas en el ecosistema de información del país. Para entendernos, internet en Myanmar es dominada por Facebook (ahora Meta), RGP (coloquialmente llamada red social) usada por más del 90% de los usuarios activos de dicho país e inicialmente utilizada por agitadores, muchos de ellos influyentes sacerdotes budistas, para pedir la expulsión o el exterminio de los rohingya. Una vez puesto el péndulo a oscilar, los ataques contra sus poblados se multiplicaron con el incendio de escuelas y mezquitas. Se les expropiaron sus tierras, ganado y cosechas con el argumento de que no eran de su propiedad, hasta que fueron prácticamente empujados al exilio. Definimos para este caso la semiosfera como el conjunto de sistemas de IA dentro de las RGP que operan dentro del país, Myanmar. Y hasta aquí observamos un problema más bien sociológico o religioso y a las RGP como herramientas de comunicación que generan tendencias o no tendencias en base a la información que circula. Pero es aquí donde Facebook, Google y las llamadas granjas de clickbaits motivadas por el lucro económico intervienen y pasan a tener un rol determinante en el proceso de irritación y desestabilización de la frontera. ¿Qué papel desempeñaron Google y Facebook en el genocidio? Para contestar pondremos brevemente de relieve un tipo de sesgo que se genera tan habitualmente sobre modelos de ML como el de Facebook o Google. La mecánica es siempre similar. A saber: en el espacio extra-semiótico hay dos actores claves: la propia RGP (que no sólo opera dentro de la semiosfera birmana sino que tiene alcance global) y las llamadas granjas de clickbaits. Las últimas (ubicadas generalmente fuera de la semiosfera) identifican una posible tendencia entre los usuarios de Birmania, algún tema particularmente sensible que pueda atraerlos o irritarlos, como lo fue el discurso de odio hacia los rohingya, y crean uno o múltiples sitios webs con notas o menciones referidas al tema para luego viralizarlo. Una vez creados, estos sitios se registran al programa Instant Articles (funcionalidad de Facebook que permite crear contenidos de carácter periodístico desde la propia red social, es decir, sin tener que salir en ningún momento de la plataforma). A Facebook le interesa aumentar sus ingresos publicitarios a partir de estos artículos gratuitos generados por la granja de clickbaits por lo cual sus algoritmos ayudan a las granjas a distribuir el contenido y les ofrece recompensas por recibir más visitas. Incluso las financian para que promocionen sus Instant Articles como también se ha demostrado en la investigación. La viralización escala así no solo dentro de Facebook sino que transversalmente en toda la RGP (Instagram, Whatsapp, Giphy, Oculusus, etc). Por último, si fuese necesario, las granjas utilizan también perfiles e influencers dentro de la semiosfera pero de otras plataformas como Twitter o invierten dinero en posicionamiento web en Google para atraer más visitantes a sus notas. Cuantos más usuarios ingresen a los Instant Articles, más facturación para las granjas y Facebook. Retomando el hilo del caso, cuando Facebook observó que los contenidos relacionados con el discurso del odio en Myanmar tenía potencial para convertirse en tendencia decidió financiar a las granjas de clickbait para que aumenten su capacidad de replicar el contenido dentro de la frontera y generar artificialmente que los AI produzcan resultados completamente sesgado. ¿Y cuál es el problema? El problema es que este ciclo de generación de contenido en contra de los rohingya escaló y se constituyó como genocidio. ¿Y podemos evitarlo? Claro que sí. Si hubiésemos tenido una frontera preparada para limitar el contenido excesivamente sesgado y creado artificialmente que amplificó la tendencia contra los rohingya. Una especie de cortafuegos del discurso del odio. Herramientas preventivas lo suficientemente sensibles para detectar tendencias no genuinas que incitan a la violencia. En definitiva, una frontera preparada para dar aviso ante comportamientos anómalos. Finalmente, creemos fundamental intentar articular a las RGP con los gobiernos, organizaciones civiles e instituciones dentro de las comunidades locales y regionales para que también puedan dar aviso ante determinadas anomalías. La solución entonces es la prevención y adaptación de los sistemas.
Para finalizar el caso cabe destacar que las mismas RGP están trabajando sobre algoritmos que combatan lo que llamamos discurso del odio. Este es un tema muy polémico que genera conflictos de intereses y conflictos éticos y que no pertenecen al alcance de la presente ponencia.
C y B - Frontera y sesgos al interior de la semiosfera
Presentaremos aquí los sesgos en el proceso de aprendizaje del algoritmo de IA. A diferencia del caso anterior nos situaremos entre C y B (dentro de la semiosfera compuesta de agentes inteligentes dispuestos a aprender para luego interactuar con el espacio tanto intra como extra-semiótico). Proponemos reflexionar sobre el proceso de desarrollo y entrenamiento de un algoritmo de IA. No está en nuestra intención repasar modelos de detección de sesgos ni técnicas disponibles para balancear las bases de datos sino más bien exponer, como ejemplo, un caso concreto (CONICET, 2020) realizado por científicos del área de Investigación, sistemas e Inteligencia artificial Computacional (SINC(i)) de Santa Fé, Argentina, que ilustra y nos permita ensayar propuestas para mejorar a futuro. El caso se refiere a un algoritmo de AI para el diagnóstico por imágenes de rayos X que fue entrenado con bases de datos desbalanceadas entre cantidad de hombres y mujeres. El resultado, claro está, presentó un rendimiento más bajo en el grupo subrepresentado. Esta situación experimentada en el SINC se observa frecuentemente en el proceso de entrenamiento de algoritmos en todo el mundo. Claro está que en este caso el sesgo no tiene que ver con una manipulación o búsqueda sistemática de irritar a una determinada semiosfera sino que el problema está dentro (en el proceso de desarrollo y entrenamiento de los algoritmos). Por lo tanto, los sesgos en estos casos están originados en lo que llamamos la naturaleza o estructura de los datos o bien en el modelo estadístico o matemático elegido. Es por eso que el trabajo humano está en manos de quienes diseñan y entrenan los algoritmos. ¿Cómo los evitamos? La propuesta a quienes deben desarrollar estos modelos es que se enfoquen, inicialmente, en dos aspectos. Por un lado en los datos con los que entrenaremos a los algoritmos. Por ejemplo el sesgo de etiqueta selectiva en el cual podemos observar qué sucede al tomar una decisión pero no sabemos qué hubiese pasado de no haberla tomado. O bien el caso del sesgo en el proceso de muestreo que genera subrepresentación o sobrerrepresentación de colectivos, sub representaciones de género o etnia. El segundo aspecto a explorar es el sesgo que proviene del proceso de desarrollo de los algoritmos. Aquí nos podemos encontrar con una mala definición del objetivo a alcanzar por lo que las variables que evaluaremos no serán suficientes y obtendremos resultados sesgados. O bien casos dentro del machine learning donde se espera que el algoritmo encuentre de forma independiente los patrones a analizar y se entrene a partir de su propio aprendizaje donde suele suceder que el algoritmo no escoge adecuadamente los datos de entrenamiento y testeo de resultados y, por ende, obtenemos resultados sesgados. Es por esto, y para concluir, que son los especialistas en el campo que se desea estudiar los que deben participar en el proceso de desarrollo y entrenamiento de los algoritmos de inteligencia artificial. Pero, evitar los sesgos requiere no sólo de especialistas en el campo de estudio sino también una mirada multidisciplinar y especialmente diversa. Cuantos más diversos sean los datos y más diversas sean las personas que analizan los resultados, mayores oportunidades tendremos de evitar sesgos. Cuanto más representados estén grupos minoritarios, más balanceados serán los resultados que arrojen los modelos. Sólo en la diversidad de puntos de vista y perspectivas podemos enriquecer lo suficiente al algoritmo para que sus respuestas habiliten a una sociedad más amplia donde tanto mayorías como minorías se sientan representadas.
ESIC. (2019). ¿Qué es el clickbait y cómo usarlo de forma correcta?
Kissinger, H., Schmidt, E. y Huttenlocher, D. (2021). The Age of AI: And Our Human Future.
Luhmann, N. (1991). Introduction to systems theory.
Lotman, I. (1994). Cerebro-texto-cultura-inteligencia artificial.
Lotman, I. (1991). La semiosfera - Semiótica de la cultura y del texto.
Hadhazy, A. (2017). Biased bots: Artificial-intelligence systems echo human prejudices. Office of Engineering Communications, Hao, K. (2021). How Facebook and Google fund global misinformation. MIT Technology Review, Instituto de Investigación en Señales, Sistemas e Inteligencia Computacional. (25 de junio de 2020). Los sistemas de inteligencia artificial pueden hacer diagnósticos con sesgo de género si no son entrenados correctamente.
Real Academia Española. (f.). Tecnología. En Diccionario de la lengua española. Recuperado el 10 de septiembre de 2022.
Real Academia Española. (f.). Algoritmo. En Diccionario de la lengua española. Recuperado el 10 de septiembre de 2022.
Real Academia Española. (f.). Sesgo. En Diccionario de la lengua española. Recuperado el 10 de septiembre de 2022.
Russell, S. y Norvig, P. (2009). Artificial Intelligence: A modern approach. 4th edition.
Télam. (13 de marzo de 2018). Para la ONU, Facebook tuvo un "rol determinante" en las matanzas a los rohingyas.