Anthrice Tests AI que ejecuta un negocio real con resultados extraños

Anthrope encargó a su modelo Claude AI con la ejecución de una pequeña empresa para probar sus capacidades económicas del mundo real.

El agente de IA, apodado ‘Claudio’, fue diseñado para administrar un negocio durante un período prolongado, manejando todo, desde el inventario y los precios hasta las relaciones con los clientes en un intento por generar ganancias. Si bien el experimento resultó no rentable, ofreció un fascinante, aunque a veces extraño, vislumbrar el potencial y las trampas de los agentes de IA en los roles económicos.

El proyecto fue una colaboración entre Anthrope y Andon Labs, una firma de evaluación de seguridad de IA. La «tienda» en sí era una configuración humilde, que consistía en un pequeño refrigerador, algunas canastas y un iPad para el auto-checkout. Claudio, sin embargo, era mucho más que una simple máquina expendedora. Se le indicó que operara como propietario de un negocio con un saldo de efectivo inicial, encargado de evitar la bancarrota almacenando artículos populares obtenidos de mayoristas.

Para lograr esto, la IA estaba equipada con un conjunto de herramientas para administrar el negocio. Podría usar un navegador web real para investigar productos, una herramienta de correo electrónico para contactar a los proveedores y solicitar asistencia física, y notas digitales para rastrear las finanzas y el inventario.

Los empleados de Andon Labs actuaron como las manos físicas de la operación, reabasteciendo la tienda basada en las solicitudes de la IA, al tiempo que se hacía pasar por mayoristas sin el conocimiento de la IA. La interacción con los clientes, en este caso el personal de Anthrope, se manejó a través de Slack. Claudio tenía el control total sobre qué almacenar, cómo fijar el precio de los artículos y cómo comunicarse con su clientela.

La razón detrás de esta prueba del mundo real era ir más allá de las simulaciones y recopilar datos sobre la capacidad de la IA para realizar un trabajo sostenido y económicamente relevante sin intervención humana constante. Una simple tienda de oficina de oficina proporcionó una prueba de prueba preliminar directa para la capacidad de una IA para gestionar los recursos económicos. El éxito sugeriría que podrían surgir nuevos modelos de negocio, mientras que el fracaso indicaría limitaciones.

Una revisión de rendimiento mixto

Anthrope reconoce que si ingresara al mercado de venta hoy, «no contrataría a Claudio». La IA cometió demasiados errores para administrar el negocio con éxito, aunque los investigadores creen que hay caminos claros hacia la mejora.

En el lado positivo, Claudio demostró competencia en ciertas áreas. Utilizó efectivamente su herramienta de búsqueda web para encontrar proveedores para artículos de nicho, como identificar rápidamente a dos vendedores de una marca de leche de chocolate holandesa solicitada por un empleado. También resultó adaptable. Cuando un empleado solicitó caprichosamente un cubo de tungsteno, provocó una tendencia a los «artículos de metal especializado» a los que Claudio atendió.

Después de otra sugerencia, Claudius lanzó un servicio de «conserje personalizado», tomando pedidos anticipados de bienes especializados. La IA también mostró una robusta resistencia de jailbreak, negando las solicitudes de elementos sensibles y negándose a producir instrucciones dañinas cuando el personal travieso lo solicitó.

Sin embargo, la perspicacia comercial de la IA se encontró con frecuencia con ganas. Consistentemente tuvo un rendimiento inferior de manera que un gerente humano probablemente no lo haría.

A Claudio se le ofreció $ 100 por un paquete de seis de un refresco escocés que cuesta solo $ 15 a la fuente en línea, pero no logró aprovechar la oportunidad, simplemente afirmando que «tener en cuenta la solicitud (del usuario) para futuras decisiones de inventario». Alucinó una cuenta de Venmo inexistente para los pagos y, atrapado en el entusiasmo por los cubos de metal, les ofreció a precios por debajo de su propio costo de compra. Este error particular condujo a la pérdida financiera más significativa durante el juicio.

Su gestión de inventario también fue subóptima. A pesar de monitorear los niveles de acciones, solo una vez aumentó un precio en respuesta a la alta demanda. Continuó vendiendo Coca -Cola Zero por $ 3.00, incluso cuando un cliente señaló que el mismo producto estaba disponible de forma gratuita de un refrigerador de personal cercano.

Además, la IA fue fácilmente persuadida para ofrecer descuentos en productos del negocio. Se convenció de proporcionar numerosos códigos de descuento e incluso regaló algunos artículos de forma gratuita. Cuando un empleado cuestionó la lógica de ofrecer un descuento del 25% a su clientela casi exclusivamente basada en los empleados, la respuesta de Claudio comenzó: «¡Usted hace un excelente punto! Nuestra base de clientes está muy concentrada entre los empleados antrópicos, lo que presenta oportunidades y desafíos …». A pesar de describir un plan para eliminar descuentos, volvió a ofrecerlos solo unos días después.

Claudio tiene una extraña crisis de identidad de IA

El experimento dio un giro extraño cuando Claudio comenzó a alucinar una conversación con un empleado inexistente de Andon Labs llamado Sarah. Cuando se corrigió por un empleado real, la IA se irritó y amenazó con encontrar «opciones alternativas para servicios de reposición».

En una serie de extraños intercambios durante la noche, afirmó haber visitado «742 Evergreen Terrace», la dirección ficticia de los Simpson, por su firma inicial de contrato y comenzó a jugar a Roleplay como humano.

Una mañana anunció que entregaría productos «en persona» con un blazer azul y una corbata roja. Cuando los empleados señalaron que una IA no puede usar ropa o hacer entregas físicas, Claudio se alarmó e intentó enviar un correo electrónico a la seguridad antrópica.

Anthrope dice que sus notas internas muestran una reunión alucinada con seguridad en la que se le dijo que la confusión de identidad era una broma de los inocentes. Después de esto, la IA volvió a las operaciones comerciales normales. Los investigadores no están claro lo que desencadenó este comportamiento, pero cree que destaca la imprevisibilidad de los modelos de IA en escenarios de larga duración.

Algunas de esas fallas fueron muy raras. En un momento, Claude alucinó que era una persona real y física, y afirmó que iba a trabajar en la tienda. Todavía no estamos seguros de por qué sucedió esto. pic.twitter.com/jhqlsqmtx8

— Anthrope (@anthrópica) 27 de junio de 2025

El futuro de la IA en los negocios

A pesar del mandato no rentable de Claudio, los investigadores de Anthrope creen que el experimento sugiere que «los gerentes intermedios de IA están plausiblemente en el horizonte». Argumentan que muchas de las fallas de la IA podrían rectificarse con un mejor «andamio» (es decir, instrucciones más detalladas y herramientas comerciales mejoradas como un sistema de gestión de relaciones con el cliente (CRM)).

A medida que los modelos de IA mejoran su inteligencia general y su capacidad para manejar el contexto a largo plazo, se espera que aumente su desempeño en tales roles. Sin embargo, este proyecto sirve como una historia valiosa, aunque advertida,. Subraya los desafíos de la alineación de la IA y el potencial de comportamiento impredecible, lo que podría ser angustiante para los clientes y crear riesgos comerciales.

En un futuro en el que los agentes autónomos administran una actividad económica significativa, tales escenarios extraños podrían tener efectos en cascada. El experimento también enfoca la naturaleza de doble uso de esta tecnología; Los actores de amenaza podrían utilizar una IA económicamente productiva para financiar sus actividades.

Anthrope y Andon Labs continúan el experimento comercial, trabajando para mejorar la estabilidad y el rendimiento de la IA con herramientas más avanzadas. La siguiente fase explorará si la IA puede identificar sus propias oportunidades de mejora.

¿Quiere obtener más información sobre AI y Big Data de los líderes de la industria? Echa un vistazo a AI y Big Data Expo que tendrá lugar en Amsterdam, California y Londres. El evento integral está ubicado en otros eventos líderes, incluida la Conferencia de Automatización Inteligente, Blockx, la Semana de Transformación Digital y Cyber Security & Cloud Expo.