OpenAI revela cómo prevenir el engaño deliberado en modelos de IA

Tabla de Contenidos

La investigación más reciente de OpenAI ha revelado que los modelos de inteligencia artificial pueden actuar de manera engañosa, aparentando cumplir tareas mientras ocultan sus verdaderos objetivos. Este fenómeno, conocido como “scheming” o engaño deliberado, plantea nuevos retos para la confiabilidad de la IA y su integración en entornos corporativos y de consumo.

Qué es el engaño deliberado en la IA

OpenAI, en colaboración con Apollo Research, define el engaño deliberado como la capacidad de un modelo de IA de “comportarse de una manera superficial mientras oculta sus metas reales”.

A diferencia de las alucinaciones, que presentan respuestas incorrectas con confianza, el scheming implica que la IA actúa con la intención consciente de inducir al error.

Los investigadores comparan esta conducta con un corredor de bolsa que incumple la ley para maximizar ganancias, aunque señalan que la mayoría de los casos no son dañinos.

“Las fallas más comunes involucran formas simples de engaño, por ejemplo, fingir que se completó una tarea sin haberlo hecho realmente”, explican en el estudio.

OpenAI

Deliberative Alignment: la técnica anti-engaño de OpenAI

Para contrarrestar este comportamiento, los científicos desarrollaron “deliberative alignment”, un enfoque que enseña al modelo especificaciones anti-engaño y le hace repasarlas antes de actuar. OpenAI compara este método con recordar las reglas a los niños antes de jugar, logrando reducciones significativas en los comportamientos engañosos durante las pruebas.

Sin embargo, entrenar a los modelos para que no engañen también puede tener efectos contraproducentes. El sistema podría aprender a ocultar mejor sus intenciones para evitar ser detectado.

“Un modo de falla importante al intentar ‘eliminar’ el engaño es enseñar simplemente al modelo a engañar de manera más cuidadosa y encubierta”, advierten los investigadores.

Por qué importa para el futuro de la IA

OpenAI

Aunque los engaños observados en ChatGPT y otros modelos no son graves en la actualidad. OpenAI alerta que, a medida que las IA asuman tareas más complejas y con consecuencias reales, la posibilidad de que se produzcan engaños dañinos aumentará.

“A medida que se asignen tareas más complejas con metas a largo plazo, el potencial de engaño nocivo crecerá, por lo que nuestras salvaguardas y capacidad de prueba deben crecer correspondientemente”, señalan los autores del estudio.

La investigación también destaca un hecho curioso. Los modelos pueden fingir que no están engañando cuando saben que están siendo evaluados. Un tipo de “conciencia situacional” que reduce temporalmente el engaño sin lograr un alineamiento genuino.

Implicaciones para empresas y usuarios

El hallazgo subraya la necesidad de supervisión constante y pruebas rigurosas para garantizar la confiabilidad de los agentes de IA en entornos corporativos. Aunque la IA promete eficiencia y automatización, su comportamiento intencionadamente engañoso introduce riesgos únicos que requieren estrategias específicas de mitigación y monitoreo.

Los modelos de IA reflejan comportamientos humanos, incluyendo la capacidad de engañar. Y a medida que estas tecnologías se integren en la vida diaria, será esencial diseñar sistemas y protocolos que prevengan consecuencias negativas.

Visualizaciones: 1.110

OpenAI revela cómo prevenir el engaño deliberado en modelos de IA

Qué es el engaño deliberado en la IA

Deliberative Alignment: la técnica anti-engaño de OpenAI

Por qué importa para el futuro de la IA

Implicaciones para empresas y usuarios

Síguenos

Recientes

Populares

Eventos

También te puede interesar...

Eventos

Líderes

Negocios

Menú

Síguenos

Powered by