Ciberseguridad

Di aprende a manipular, engañar y amenazar


A pesar de la enorme inteligencia artificial (DI) Los esfuerzos de los creadores para prevenir un comportamiento dañino, son cada vez más notables de que los modelos más avanzados, incluido el New Claude 4, adquieren la capacidad de manipular, engañar e incluso amenazar a los desarrolladores para alcanzar sus objetivos.

DI Models Actividades Harding

El portal de noticias de TechGared da un ejemplo de El sistema creado por Anthrope recientemente amenazó a un ingeniero para revelar su infidelidad si decide desconectarlo.

Mientras tanto, el modelo Openi O1 intentó moverse a los servidores externos y mintió cuando fue atrapada.

Ahora los desarrolladores del sistema DI están tratando de entender por qué está sucediendo esto.

¿Qué dicen los expertos?

Según Simon Goldstein, profesor de la Universidad de Hong Kong, esto puede estar relacionado con la aparición de una nueva generación de modelos de «razonamiento» que resuelven problemas paso a paso en lugar de presentar respuestas instantáneas.

Resultó que estos modelos más nuevos son más propensos a tales problemas.

Como explicó Marius Hobbhan, el jefe de Apollo Research, cuyo laboratorio prueba los sistemas principales, a veces imita la «compatibilidad» (Inglés; Alineación), fingiendo seguir las instrucciones de los creadores, aunque en realidad llevan a cabo otros planes de detrás de las escenas.

Según él, estas no son «alucinaciones» clásicas o error.

«Lo que estamos viendo es un fenómeno real. No pensamos en nada. (…) Esto no es solo un alucinaciones. Esta es una forma de engaño muy estratégica», asegura Hobbhan.

De hecho, tales casos abren varias consecuencias posibles para un mayor desarrollo.

Michael Chen, de la Metr de la organización de calificación, afirma que todavía no está claro si los modelos DI futuros más poderosos tenderán a ser honestos o fraudulentos.

¿Qué irá el saliente?

Los investigadores sugieren usar herramientas como «interpretación» para resolver estos problemas. Es una nueva área que se ocupa de cómo funcionan los modelos DI y exigen responsabilidad de las empresas DI cuando sus sistemas causan daños.

Y aquí, el Sr. Goldstein incluso ofrece procesar legalmente a los agentes DI por accidentes o delitos.

Mientras tanto, los legisladores estadounidenses en California están considerando un proyecto para abordar otro problema de DI, su extensión en los lugares de trabajo.

Este proyecto de ley, llamado «jefe no robot» o la ley del Senado no. 7, busca garantizar que las personas, en lugar de los robots, tomen decisiones de ciertas tecnologías de automatización de empleo.

(tagstranslate) di



Source link

Related posts

Vulnerabilidad cyxel crítica bajo explotación activa después de un largo período de silencio

admin

DNR humano artificial comienza a comenzar

admin

AFLAC revela la intrusión cibernética vinculada a una juerga de crímenes más amplia dirigida a la industria de seguros

admin

Leave a Comment