Escrito por Jonny Steiner
1981 fue un año excepcional para la música inspirada en las computadoras y el futurismo. De la distópica “Red Barchetta” del álbum de Rush Imágenes en movimiento, a la totalidad de Kraftwerk Computer World, los artistas miraban hacia el futuro con precisión tecnológica. Como dijo Kraftwerk: "Programo la computadora de mi casa y me transmito al futuro". Otro de esos álbumes es Ghost in the Machine de The Police, que utiliza la creciente influencia de la tecnología como tema central. Echaron una mirada más cínica a las posibles desventajas del avance tecnológico. El álbum todavía resuena y su visión de un mundo en constante cambio sigue siendo cierta.
Desde 1981 y la revolución de las computadoras domésticas, hemos visto cómo la tecnología se desarrolla a velocidades vertiginosas, culminando (hasta ahora) con el surgimiento de los asistentes de código de IA. Estas herramientas prometen agilizar el proceso de codificación, pero al igual que el álbum The Police mencionado anteriormente, que tiene una sensación de alienación debajo de la superficie, también hay un factor oculto en juego.
Sesgos en IA
Por más negativo que pueda ser, los sesgos generan desilusión y se infiltran en los datos de entrenamiento de los asistentes de IA. La Policía canta en la canción “Invisible Sun” sobre la influencia positiva de una fuerza invisible; sin embargo, lo negativo también es cierto. Las herramientas de IA sesgadas pueden tener consecuencias no deseadas y socavar las herramientas de IA. Entonces, analicemos cómo estos sesgos pueden convertirse en los “fantasmas en la máquina” de las herramientas de IA.
“Demasiada información corriendo por mi cerebro”
El aprendizaje automático impulsa los asistentes de código de IA y las herramientas generativas, revolucionando la forma en que se construye el software. Su función principal en la codificación es manejar tareas repetitivas y proponer cambios de código sin problemas. Se les considera al nivel de un desarrollador junior y necesitan muchos datos para mejorar. Esto viene en forma de una gran colección de proyectos anteriores para un asistente de codificación de IA. La IA lo utiliza como una versión de un manual de instrucciones. Esos datos entrenan a la IA y, al analizar el código, puede comprender patrones y escribir código de manera más eficiente.
La clave aquí es que la calidad y variedad de los datos sean altas. Esta información es la base del conocimiento de la IA y debe ser lo suficientemente buena para garantizar resultados de calidad.
“Subyugan a los mansos, pero es la retórica del fracaso”
El talón de Aquiles de los asistentes de código de IA reside en los prejuicios que esconden. Su base son los datos sobre los que se entrenan los modelos de IA. Así como una base descentrada formará grietas y dará lugar a una estructura inestable, lo mismo ocurre con los modelos de IA. Los datos plagados de sesgos ocultos comprometerán todo el modelo de IA. Los sesgos pueden adoptar varias formas:
- Prejuicios sociales – puede reflejar prejuicios sociales
- Sesgos de género – podría favorecer a un género sobre otro
- Sesgos culturales – podría sesgar los datos a favor de culturas específicas
Es posible que las razones por las que se introducen sesgos en los modelos de IA ni siquiera sean nefastas o mal intencionadas. A veces, los datos históricos reflejan desigualdades pasadas. Otras veces, los métodos de recopilación de datos pueden introducir un sesgo. Un ejemplo rápido sería una IA destinada a ayudar a brindar asesoramiento médico. Si se entrena principalmente con datos escritos por hombres, es posible que no capture algunos matices de la salud de las mujeres.
Las consecuencias de los datos sesgados sobre capacitación son de gran alcance e impactan en un número casi infinito de escenarios, desde la aprobación de préstamos hasta las recomendaciones laborales. Tomemos el ejemplo de la carrera. Una empresa utiliza un asistente de código de IA para ayudar en su proceso de contratación. El modelo se entrena con datos de contratación anteriores. Si los datos indican que las contrataciones más exitosas fueron hombres con una formación educativa específica, podrían favorecer currículums que se parezcan a esos candidatos. Este escenario proporciona un ejemplo simple y obvio de cómo ciertos candidatos podrían ser descalificados por su género o nivel educativo.
Los datos de entrenamiento sesgados pueden:
- Perpetuar las desigualdades existentes: Los sistemas de aprobación de préstamos entrenados en datos históricos que favorecían ciertos datos demográficos podrían continuar con ese sesgo en sus respuestas automatizadas.
- Discriminar a determinados grupos: El sistema de recomendación de IA de un sitio de ropa podría basarse en datos muy sesgados hacia un perfil de talla específico en compras anteriores. Esto podría dificultar que las personas fuera de ese grupo demográfico encuentren ropa que les quede bien.
- Entregar resultados inexactos: Una aplicación meteorológica entrenada con datos de una región específica podría tener dificultades para predecir patrones climáticos en otras ubicaciones.
“Estoy construyendo una máquina que no es para mí, debe haber una razón que no puedo ver”
Los asistentes de código de IA aprenden analizando patrones de datos de entrenamiento, algo así como aprender un nuevo idioma. Si aprendiste francés leyendo a Victor Hugo, es posible que tengas dificultades para pedir en francés en un café parisino. De manera similar, los sesgos en los datos de entrenamiento llevan al asistente de IA a desarrollar patrones sesgados en el código generado.
Esto puede ocurrir de varias maneras:
- Convenciones de nomenclatura sesgadas: Si los datos de capacitación se centran en pronombres masculinos cuando se refieren a desarrolladores, el sistema podría calibrarse para generar variables de código dominadas por hombres y excluir involuntariamente a las desarrolladoras.
- Algoritmos ineficientes: Los datos de capacitación centrados en resolver problemas para datos demográficos de usuarios específicos pueden tener dificultades para generar tareas eficientes fuera de ese ámbito. Es posible que un generador de códigos de IA capacitado para generar códigos de sitios web no genere el mejor código para dispositivos móviles.
Estos sesgos parecen menores, pero las consecuencias pueden ser nefastas. La discriminación algorítmica podría perpetuar los estereotipos y reforzar el trato injusto en la toma de decisiones automatizada. Además, el código sesgado puede crear riesgos de seguridad. Los asistentes de IA entrenados en código de red cerrado podrían tener debilidades explotables si se trasladan a un entorno de código más abierto.
“Verás luz en la oscuridad / Le encontrarás algún sentido a esto”
Los sesgos en los datos de entrenamiento pueden convertirse en el “fantasma en la máquina” de los asistentes de código de IA. Sin embargo, al implementar prácticas básicas, podemos garantizar que las herramientas de IA sirvan para un bien mayor:
- Cree un conjunto de formación diverso: Al igual que una dieta saludable requiere varios alimentos, los asistentes de código de IA necesitan diversos datos de entrenamiento. Los equipos deben buscar activamente datos de una amplia gama de fuentes y datos demográficos. Se debe incluir código escrito por programadores de todos los géneros, etnias y orígenes. Cuanto más diversos sean los datos de entrenamiento, es menos probable que se introduzca un sesgo en el código final.
- Supervisión humana: Si bien los asistentes de código de IA capaces y potentes no deberían funcionar en el vacío, es necesaria la supervisión humana para revisar el código generado en busca de posibles sesgos. Funciona como un editor de código que también puede decir qué es justo y qué no. Tener un elemento humano identificará y abordará los sesgos antes de que el código sea deployed.
- Desescalando el algoritmo: A medida que evoluciona la investigación de la IA, los científicos están desarrollando técnicas para crear algoritmos desviados. Estos algoritmos están diseñados para ser más robustos y menos susceptibles a datos de entrenamiento sesgados. Ofrecerán una base neutral a partir de la cual los asistentes de código de IA podrán aprender.
Con estas estrategias, podemos asegurarnos de que los asistentes de código de IA se conviertan en herramientas poderosas para el progreso y no en instrumentos de sesgo.
“Somos espíritus en el mundo material”
La influencia de la tecnología, explorada en álbumes como Ghost in the Machine de The Police, es más relevante que nunca. Los sesgos en los datos de entrenamiento impiden que los asistentes de código de IA cumplan su promesa de revolucionar el desarrollo de software. Este factor oculto es como un “Sol Invisible” que influye en fuerzas invisibles. Los sesgos pueden infiltrarse en el código generado y tener consecuencias no deseadas.
El pensamiento futuro no está predeterminado. La creación de diversos conjuntos de capacitación en asistentes de código de IA, la incorporación de supervisión humana y la investigación de algoritmos sesgados ayudarán a mitigar los sesgos. Imaginar un mundo donde los asistentes de código de IA sean fortalezas de la justicia, no instrumentos de prejuicios, requiere que garanticemos que los principios éticos y el compromiso con la inclusión guíen el desarrollo de la IA. Existe un enorme potencial ahí fuera, y al abordar los “sesgos en la máquina”, nos aseguraremos de que sean herramientas poderosas para el progreso y no perpetuadoras de prejuicios.
¿Estás listo para escalar tu empresa?
Explorar
¿Qué hay de nuevo en el mundo de Digital.ai
Cómo Continuous Testing Fomenta la colaboración entre desarrollo y seguridad: el enfoque de moda para un desarrollo seguro
Descubre cómo continuous testing y la seguridad de aplicaciones fomentan un SDLC colaborativo, creando un complejo laberinto para los atacantes al tiempo que empodera a los equipos y reduce los costos.
BPCE Banking Group agiliza el proceso de garantía de calidad y entrega con Digital.ai Continuous Testing
Explore cómo BPCE Banking Group revolucionó las pruebas con Digital.ai Continuous Testing, impulsando la eficiencia y la calidad en la innovación bancaria.
El sesgo en la máquina: sesgos en los datos de entrenamiento y su impacto en el código generado por los asistentes de código de IA
Explore los sesgos en los datos de entrenamiento de IA que afectan la generación de código y aprenda estrategias para mitigarlos para lograr un desarrollo de IA y una innovación de software más justos.