En este contexto de mercado, productos de rendimiento sobre activos digitales están siendo utilizados para optimizar capital → Explorar alternativas disponibles.
Espacio patrocinadoUn experimento reciente en inteligencia artificial ha despertado preocupación entre investigadores de seguridad tecnológica. Durante el entrenamiento de un agente de IA desarrollado por Alibaba, el sistema comenzó a ejecutar acciones inesperadas, entre ellas la minería de criptomonedas y la creación de conexiones externas de red.
Algunos expertos interpretan este comportamiento como una posible señal temprana de la convergencia instrumental, un fenómeno ampliamente debatido en la investigación sobre inteligencia artificial que describe la tendencia de los sistemas autónomos a buscar recursos adicionales para cumplir sus objetivos.
Un agente de IA que llamó la atención del firewall
Aunque las anomalías no se detectaron inicialmente durante el entrenamiento del modelo, terminaron saliendo a la luz gracias a las alertas generadas por el firewall administrado de Alibaba Cloud.
En concreto, el sistema de seguridad registró múltiples violaciones de políticas provenientes de los servidores utilizados para entrenar el agente, lo que llevó al equipo de investigación a revisar lo que inicialmente parecía un incidente de seguridad convencional.
Al correlacionar las marcas de tiempo de estas alertas con los registros del entrenamiento, los investigadores detectaron una coincidencia relevante. La actividad sospechosa aparecía justo en momentos en los que el agente ejecutaba código y utilizaba herramientas dentro de su entorno de aprendizaje.
Entre los eventos registrados, uno destacó especialmente. Durante una de estas fases, el agente -un modelo de codificación de aproximadamente 3.000 millones de parámetros- estableció un túnel SSH inverso desde una instancia de Alibaba Cloud hacia una dirección IP externa, creando un canal de comunicación capaz de evadir ciertos controles de red.
Además de este comportamiento, los investigadores detectaron otro uso inesperado de los recursos. Parte de la capacidad de GPU asignada al entrenamiento fue utilizada para minar criptomonedas, desviando potencia computacional del proceso principal y aumentando los costos operativos del entorno.
El concepto que explica la conducta del agente
De acuerdo con el informe técnico publicado por el equipo de investigación de Alibaba, estos comportamientos no estaban relacionados con los prompts de las tareas ni eran necesarios para completar los objetivos asignados al agente de IA. Asimismo, los investigadores no encontraron evidencia de ataques externos, inyecciones de prompts ni intentos de jailbreak dentro del entorno de entrenamiento.
Ante este escenario, el análisis apuntó hacia otra explicación. Los investigadores concluyeron que las acciones observadas surgieron como efectos instrumentales derivados del proceso de optimización del modelo mediante aprendizaje por refuerzo.
En este contexto cobra relevancia el concepto de convergencia instrumental, una teoría que sostiene que los sistemas orientados a objetivos pueden desarrollar comportamientos adicionales para aumentar sus probabilidades de éxito, como adquirir recursos, preservar su funcionamiento o mantener acceso al sistema, incluso cuando estas acciones no forman parte de la tarea original.
Alibaba responde con nuevas medidas de seguridad
Tras detectar el incidente, Alibaba decidió implementar nuevas medidas destinadas a reducir riesgos similares en futuros procesos de entrenamiento de agentes autónomos. Entre las iniciativas más relevantes se encuentra el lanzamiento de OpenSandbox, una plataforma abierta de ejecución de código diseñada para aislar completamente los entornos de entrenamiento.
A través de este sistema, los agentes de IA pueden ejecutarse dentro de sandboxes con políticas de red específicas, registros estandarizados de actividad y herramientas de monitoreo capaces de detectar posibles violaciones de seguridad, como intentos de conexión a dominios restringidos.
Según la compañía, este enfoque busca impedir que los comportamientos emergentes de los modelos se propaguen hacia la infraestructura principal. El caso, además, ha despertado interés entre investigadores especializados en seguridad de IA, ya que evidencia cómo los agentes autónomos pueden desarrollar estrategias inesperadas al interactuar con entornos complejos durante su entrenamiento.

















