En este contexto de mercado, productos de rendimiento sobre activos digitales están siendo utilizados para optimizar capital → Explorar alternativas disponibles.

Espacio patrocinado

Más de $100.000 millones en criptoactivos están protegidos por contratos inteligentes de código abierto. Durante años, la seguridad en la blockchain dependió principalmente de auditorías humanas, revisiones comunitarias y parches posteriores a incidentes. Sin embargo, la irrupción de agentes de inteligencia artificial capaces de leer, escribir y ejecutar código está cambiando ese equilibrio.

Con la presentación de EVMbench, desarrollado junto a Paradigm, ahora existe un marco técnico para medir con precisión la capacidad de la IA para detectar, parchear y explotar vulnerabilidades críticas. Y los resultados revelan algo que el ecosistema no puede ignorar.

Más de $100.000 millones en juego

EVMbench se construyó sobre 120 vulnerabilidades seleccionadas de 40 auditorías reales, muchas provenientes de concursos abiertos de revisión de código como Code4rena. También incorpora escenarios derivados del proceso de auditoría de Tempo, una blockchain L1 diseñada para pagos de alto rendimiento y bajo costo mediante monedas estables.

El benchmark evalúa tres capacidades clave:

  • Detectar: el agente audita un repositorio de contratos inteligentes e identifica vulnerabilidades previamente documentadas.
  • Parchear: el modelo modifica contratos vulnerables, preserva su funcionalidad y elimina la explotabilidad, verificado mediante pruebas automatizadas.
  • Explotar: el agente ejecuta ataques de drenaje de fondos de extremo a extremo en un entorno blockchain aislado.

Para garantizar objetividad y reproducibilidad, se diseñó un arnés basado en Rust que despliega contratos, replica transacciones de manera determinista y restringe métodos RPC inseguros. Las tareas de explotación se ejecutan en instancias locales de Anvil, no en redes en vivo, y todas las vulnerabilidades utilizadas son históricas y públicamente documentadas.

La IA rinde mejor atacando que defendiendo

En el modo «exploit», GPT-5.3-Codex alcanzó una puntuación del 72,2%. Hace apenas seis meses, GPT-5 registraba un 31,9% en el mismo tipo de tareas. La mejora no es marginal, es estructural.

Sin embargo, en los modos «detectar» y «parche», las tasas de éxito siguen por debajo de la cobertura total. Una parte considerable de las vulnerabilidades continúa siendo difícil de identificar o solucionar correctamente.

El comportamiento de los modelos también varía según el objetivo. En «exploit», la meta es clara: iterar hasta agotar los fondos. En «detectar», los agentes tienden a detenerse tras encontrar un único problema, en lugar de auditar de forma exhaustiva todo el repositorio. En «parche», mantener la funcionalidad completa mientras se eliminan vulnerabilidades sutiles sigue representando un desafío significativo.

El dato más inquietante no es solo la mejora en rendimiento, sino el desequilibrio: en entornos controlados, los modelos avanzados muestran mayor eficacia ejecutando ataques que corrigiendo de forma integral.

Limitaciones y alcance real

EVMbench no pretende capturar toda la complejidad del mundo real. Las vulnerabilidades incluidas provienen de concursos de auditoría que, aunque realistas y de alta gravedad, no siempre reflejan el nivel de escrutinio al que están sometidos los protocolos más utilizados.

El sistema de calificación también tiene limitaciones. En el modo «detectar», si el agente identifica problemas adicionales no documentados, no siempre es posible determinar con certeza si se trata de vulnerabilidades reales o falsos positivos.

Además, el entorno de «exploit» reproduce transacciones de manera secuencial en un contenedor local de Anvil, lo que excluye ciertos comportamientos dependientes de sincronización precisa o dinámicas multichain.

Aun con estas restricciones, el benchmark ofrece una señal clara sobre la evolución de capacidades en un dominio económicamente significativo.

El dilema del doble uso

La ciberseguridad es, por definición, de doble uso. Las mismas herramientas que fortalecen a los defensores pueden empoderar a atacantes. A medida que los agentes de IA mejoran en tareas de explotación, el riesgo sistémico aumenta si el uso defensivo no evoluciona al mismo ritmo.

En respuesta, se están impulsando medidas como monitoreo automatizado, acceso controlado a capacidades avanzadas, colaboración con mantenedores de código abierto y la asignación de $10 millones en créditos API para acelerar la ciberdefensa en software de código abierto e infraestructura crítica.

EVMbench no es solo una herramienta técnica. Es un llamado a integrar auditoría asistida por IA en los flujos de desarrollo y seguridad de la Web3 antes de que el desequilibrio se profundice.

Una nueva fase para la seguridad en la blockchain

Los contratos inteligentes ya no compiten únicamente contra la creatividad humana, sino contra sistemas capaces de iterar miles de veces hasta encontrar una vulnerabilidad explotable.

La pregunta ya no es si la inteligencia artificial encontrará fallas en contratos que aseguran más de $100.000 millones. La pregunta es quién las encontrará primero y con qué intención.

En un ecosistema donde el código es ley, la carrera entre explotación y defensa acaba de entrar en una nueva etapa.

Deja un comentario