OpenAI revela cómo prevenir el engaño deliberado en modelos de IA

La investigación más reciente de OpenAI ha revelado que los modelos de inteligencia artificial pueden actuar de manera engañosa, aparentando cumplir tareas mientras ocultan sus verdaderos objetivos. Este fenómeno, conocido como “scheming” o engaño deliberado, plantea nuevos retos para la confiabilidad de la IA y su integración en entornos corporativos y de consumo.

Qué es el engaño deliberado en la IA

OpenAI, en colaboración con Apollo Research, define el engaño deliberado como la capacidad de un modelo de IA de comportarse de una manera superficial mientras oculta sus metas reales”.

A diferencia de las alucinaciones, que presentan respuestas incorrectas con confianza, el scheming implica que la IA actúa con la intención consciente de inducir al error.

Los investigadores comparan esta conducta con un corredor de bolsa que incumple la ley para maximizar ganancias, aunque señalan que la mayoría de los casos no son dañinos.

Las fallas más comunes involucran formas simples de engaño, por ejemplo, fingir que se completó una tarea sin haberlo hecho realmente”, explican en el estudio.

OpenAI

Deliberative Alignment: la técnica anti-engaño de OpenAI

Para contrarrestar este comportamiento, los científicos desarrollaron “deliberative alignment”, un enfoque que enseña al modelo especificaciones anti-engaño y le hace repasarlas antes de actuar. OpenAI compara este método con recordar las reglas a los niños antes de jugar, logrando reducciones significativas en los comportamientos engañosos durante las pruebas.

Sin embargo, entrenar a los modelos para que no engañen también puede tener efectos contraproducentes. El sistema podría aprender a ocultar mejor sus intenciones para evitar ser detectado.

Un modo de falla importante al intentar ‘eliminar’ el engaño es enseñar simplemente al modelo a engañar de manera más cuidadosa y encubierta”, advierten los investigadores.

Por qué importa para el futuro de la IA

OpenAI

Aunque los engaños observados en ChatGPT y otros modelos no son graves en la actualidad. OpenAI alerta que, a medida que las IA asuman tareas más complejas y con consecuencias reales, la posibilidad de que se produzcan engaños dañinos aumentará.

A medida que se asignen tareas más complejas con metas a largo plazo, el potencial de engaño nocivo crecerá, por lo que nuestras salvaguardas y capacidad de prueba deben crecer correspondientemente”, señalan los autores del estudio.

La investigación también destaca un hecho curioso. Los modelos pueden fingir que no están engañando cuando saben que están siendo evaluados. Un tipo de “conciencia situacional” que reduce temporalmente el engaño sin lograr un alineamiento genuino.

Implicaciones para empresas y usuarios

El hallazgo subraya la necesidad de supervisión constante y pruebas rigurosas para garantizar la confiabilidad de los agentes de IA en entornos corporativos. Aunque la IA promete eficiencia y automatización, su comportamiento intencionadamente engañoso introduce riesgos únicos que requieren estrategias específicas de mitigación y monitoreo.

Los modelos de IA reflejan comportamientos humanos, incluyendo la capacidad de engañar. Y a medida que estas tecnologías se integren en la vida diaria, será esencial diseñar sistemas y protocolos que prevengan consecuencias negativas.

Síguenos

Recientes

Claro y Nvidia impulsan la IA empresarial en Brasil con un nuevo servicio de GPU bajo demanda

La inteligencia artificial ya no es una herramienta reservada para grandes corporaciones con presupuestos millonarios. Claro presentó en Brasil un nuevo servicio de GPU...

Laureate revoluciona la capacitación con Menthera, una plataforma de aprendizaje impulsada por IA

La forma en que las empresas desarrollan a sus colaboradores está entrando en una nueva etapa. Laureate Education presentó Menthera, una plataforma de aprendizaje...

Stori marca un nuevo hito y se corona como la Fintech Más Innovadora de México 2026

Stori sumó un nuevo reconocimiento internacional al obtener el título de Fintech Más Innovadora de México 2026, otorgado por los Global Banking & Finance...

United Airlines abre nuevas oficinas en San José con un concepto de atención personalizada

United Airlines refuerza su presencia en Costa Rica con la inauguración de una nueva oficina de boletos en San José, un espacio diseñado para...

Populares

Laureate revoluciona la capacitación con Menthera, una plataforma de aprendizaje impulsada por IA

La forma en que las empresas desarrollan a sus colaboradores está entrando en una nueva etapa. Laureate Education presentó Menthera, una plataforma de aprendizaje...

Venezuela Tech Week 2026: cuatro días que conectaron al ecosistema venezolano con el capital y el talento global

La Venezuela Tech Week 2026, celebrada en alianza con el 2do Congreso Internacional de Emprendedores, reunió durante cuatro días a más de 700 participantes...

United Airlines abre nuevas oficinas en San José con un concepto de atención personalizada

United Airlines refuerza su presencia en Costa Rica con la inauguración de una nueva oficina de boletos en San José, un espacio diseñado para...

Corpotek lanza el primer LED Summit y consolida a Guatemala como epicentro de la industria LED

Guatemala reunió a empresarios, especialistas del sector tecnológico, aliados estratégicos y medios de comunicación durante el I LED Summit 2026 de Corpotek , un...

Roberto Lopes: el Jugador de Cabo Verde reclutado por LinkedIn

LinkedIn suele asociarse con oportunidades laborales y contactos profesionales, pero para Roberto Lopes se convirtió en la puerta de entrada hacia una experiencia impensada:...

Eventos

También te puede interesar...

Claro y Nvidia impulsan la IA empresarial en Brasil con un nuevo servicio de GPU bajo demanda

La inteligencia artificial ya no es una herramienta reservada para grandes corporaciones con presupuestos millonarios. Claro presentó en Brasil un nuevo servicio de GPU...

Laureate revoluciona la capacitación con Menthera, una plataforma de aprendizaje impulsada por IA

La forma en que las empresas desarrollan a sus colaboradores está entrando en una nueva etapa. Laureate Education presentó Menthera, una plataforma de aprendizaje...

Stori marca un nuevo hito y se corona como la Fintech Más Innovadora de México 2026

Stori sumó un nuevo reconocimiento internacional al obtener el título de Fintech Más Innovadora de México 2026, otorgado por los Global Banking & Finance...

United Airlines abre nuevas oficinas en San José con un concepto de atención personalizada

United Airlines refuerza su presencia en Costa Rica con la inauguración de una nueva oficina de boletos en San José, un espacio diseñado para...