Junio 2026 — Estado del Arte

Un modelo frontier cada 7 días.
Antes: uno cada 55.

La GenAI dejó de avanzar en línea recta. Lo que antes tomaba un año, ahora pasa en semanas. Estos son los datos.

35+
Modelos frontier
desde Nov '25
11×
Más rápido que
el ritmo de 2023–2025
145K
GitHub stars
OpenClaw en 1 semana
↓ Scroll para ver la avalancha
No necesitas entender los benchmarks para entender el impacto. En cada sección encontrarás lo que significa para tu organización.
01 — Densidad de lanzamientos

Cada punto es un modelo frontier. Observa la compresión.

33 meses de lanzamientos distribuidos arriba. La avalancha reciente, abajo. El contraste visual es la historia.

→ Para tu empresa: el ritmo de innovación dejó de ser predecible. Las organizaciones sin capacidad de absorción quedan atrás de forma estructural — no puntual.

Mar 2023

Oct 2025

33 meses
GPT-4
Mar '23 · OpenAI
Claude 1
Mar '23 · Anthropic
Llama 2
Jul '23 · Meta
Gemini 1.0
Dic '23 · Google
Claude 3 Opus/Sonnet
Mar '24 · Anthropic
GPT-4o
May '24 · OpenAI
Claude 3.5 Sonnet
Jun '24 · Anthropic
Llama 3.1
Jul '24 · Meta
o1-preview
Sep '24 · OpenAI
Gemini 2.0 Flash
Dic '24 · Google
DeepSeek V3
Dic '24 · DeepSeek
DeepSeek R1
Ene '25 · DeepSeek
Grok 3
Feb '25 · xAI
Gemini 2.5 Pro
Mar '25 · Google
Llama 4 Scout/Maverick
Abr '25 · Meta
Claude 4 Opus/Sonnet
May '25 · Anthropic
Grok 4
Jul '25 · xAI
GPT-5
Ago '25 · OpenAI · 272K ctx
18 modelos frontier en 33 meses ≈ 1 cada 55 días
Nov 2025

Jun 2026

~210 días
🔥 El Sprint de 25 Días — Nov/Dic 2025
GPT-5.1
12 Nov · OpenAI
Grok 4.1
17 Nov · xAI · 1483 Elo
Gemini 3 Pro
18 Nov · Google · 1er modelo >1500 Elo · 1M ctx
Claude Opus 4.5
30 Nov · Anthropic · #1 LMArena
Claude Sonnet 4.5 / Haiku 4.5
Nov · Anthropic
DeepSeek V3.2
Dic · DeepSeek · MIT · 10-30× más barato
GPT-5.2 Instant/Think/Pro
11 Dic · OpenAI · 400K ctx
⚡ Enero 2026 — Razonamiento + Agentes
o4-mini
Ene · OpenAI
DeepSeek R1
20 Ene · DeepSeek · razonamiento open-source
Gemini 3 Deep Think
Ene · Google · razonamiento extendido
🦞 OpenClaw
Ene · Open-source · 145K ⭐ GitHub en 7 días
🌊 Febrero 2026 — La Ola No Para
Claude Opus 4.6
5 Feb · Anthropic · Agent Teams · 1M ctx · 68.8% ARC-AGI-2
GLM-5
11 Feb · Zhipu · open-source · chips Huawei
Doubao 2.0
14 Feb · ByteDance
Qwen 3.5
16 Feb · Alibaba
Claude Sonnet 4.6
17 Feb · Anthropic · 79.6% SWE-bench · 1M ctx
Grok 4.2 Beta
17 Feb · xAI · aprendizaje continuo semanal
Gemini 3.1 Pro
19 Feb · Google · 77.1% ARC-AGI-2 · nuevo líder en razonamiento
🚀 Marzo–Abril 2026 — Nuevas Fronteras
Gemini 3.1 Flash-Lite
12 Mar · Google · + Nano Banana 2
Gemma 4
2 Abr · Google · open-weight Apache 2.0 · 2B–31B
Claude Mythos Preview
7 Abr · Anthropic · Project Glasswing · solo socios
GLM-5.1
7 Abr · Zhipu · open-source · #1 SWE-Bench Pro
Muse Spark
8 Abr · Meta · primer modelo MSL · open-source
Claude Opus 4.7
16 Abr · Anthropic · SWE-bench 87.6% · visión mejorada
Grok 4.3
17 Abr · xAI · video nativo · genera PPT/PDF · 1M ctx
GPT-5.5 «Spud»
23 Abr · OpenAI · 1er retrain desde GPT-4.5 · 82.7% Terminal-Bench
🌐 Mayo–Junio 2026 — La Cresta de la Ola
Gemini 3.5 Flash
19 May · Google I/O · GA · 4× más rápido · $1.50/$9
Claude Opus 4.8
28 May · Anthropic · Dynamic Workflows · cientos de subagentes en paralelo
Microsoft MAI (×7)
2 Jun · Microsoft · 7 modelos propios en Build · pivote desde OpenAI
35+ modelos frontier en ~210 días ≈ 1 cada 6 días
11×
La frecuencia de lanzamientos frontier se aceleró 11 veces: de 1 modelo cada 55 días a 1 cada 4-5 días. En noviembre 2025, cuatro empresas lanzaron su mejor modelo en 25 días consecutivos.
02 — Antes vs Después

Los números cuentan la misma historia

Comparación directa entre los primeros 33 meses de la era GenAI moderna y la avalancha que arrancó en noviembre 2025.

→ Para tu empresa: procesos que hace un año eran inviables por costo o complejidad, hoy son rentables desde el primer trimestre.

Primeros 33 meses
Mar 2023 → Oct 2025
Modelos frontier lanzados
~18
Mejor Elo en LMArena
~1,350
GPT-5 · Ago 2025
Contexto máximo (producción)
200K tokens
Claude 3.5 / GPT-4 Turbo
Costo input / 1M tokens (frontier)
$15 – $30
GPT-4 era pricing dominante
ARC-AGI-2 (razonamiento novel)
< 10%
Ningún modelo pasaba de un dígito
Agentes autónomos reales
0
Solo demos y prototipos de investigación
La avalancha
Nov 2025 → hoy
Modelos frontier lanzados
35+
Mejor Elo en LMArena
1,500+
Gemini 3 Pro rompió barrera histórica · Nov '25
→ Resuelven problemas que antes requerían analistas senior especializados
Contexto máximo (producción)
1M – 2M tokens
Opus 4.8, GPT-5.5, Gemini 3.5, Grok 4.3
→ Pueden leer y analizar documentos completos: contratos, informes anuales, bases de licitación
Costo input / 1M tokens (frontier)
$0.27
DeepSeek V3.2 · MIT License · hasta 50× más barato
→ Procesos antes inviables por costo ahora son rentables desde el primer mes
ARC-AGI-2 (razonamiento novel)
68.8%
Opus 4.6 · +83% vs Opus 4.5 (37.6%)
→ Razonamiento multi-paso: análisis legal, financiero y operacional sin intervención humana
Agentes autónomos reales
OpenClaw + más
145K ⭐ · Negoció US$4,200 en descuento · Agent Teams de Opus 4.6
→ Coordinación de tareas complejas sin supervisión: facturas, proveedores, reportes, testing
5×–10×
En contexto (5–10×), costos (50× más barato), razonamiento (+83% ARC-AGI-2), y agentes (de 0 a producción) — cada dimensión dio un salto que antes tomaba años.
02b — Autonomía

¿Cuánto puede trabajar un agente de iA sin ayuda?

METR mide el horizonte de autonomía: la duración de tareas que un agente completa solo, sin intervención humana. Hoy, Claude Mythos sostiene tareas de 16 horas — y ya satura el límite que METR puede medir.

GPT-4
Mar 2023
~3 min
GPT-4o
May 2024
~6 min
Claude 3.5
Jun 2024
~11 min
o1
Dic 2024
~38 min
Claude 3.7
Feb 2025
~1 hora
o3
Abr 2025
~2 horas
GPT-5
Ago 2025
~3.5 h
Gemini 3 Pro
Nov 2025
~4 h
Opus 4.5
Nov 2025
~5.3 h
GPT-5.2
Dic 2025
~6.6 h
Opus 4.6
Feb 2026
14.5 h
Claude Mythos
May 2026
16 h+
Fuente: METR Horizon Benchmark v1.1 — metr.org · Datos abiertos, licencia MIT
De minutos a jornadas
En 2023, un agente podía completar tareas de 3 minutos. Hoy completa tareas de 16 horas — dos jornadas laborales completas. La capacidad se duplica cada ~3.5 meses.
320×
Lo que esto significa para tu empresa
Un agente que trabaja 16 horas sin supervisión puede: analizar un portafolio completo, auditar contratos, procesar meses de datos financieros, o ejecutar pruebas de software end-to-end. Sin descanso, sin errores de fatiga, sin costo marginal.
La curva no se detiene
Al ritmo actual de duplicación (~4 meses), para mediados de 2026 el horizonte será de días. Para 2027, semanas. La pregunta no es si tu industria se verá afectada — es cuándo.
03 — Impacto concreto

La misma tarea, cuatro momentos

Analizar un contrato de 100 páginas, identificar riesgos cruzados entre cláusulas, y generar un resumen ejecutivo.

Feb 2023
No cabe. Contexto de 4K tokens. Hay que particionar manualmente. Se pierde coherencia entre secciones.
Imposible
Feb 2024
Cabe parcialmente (128K). ~4 minutos. Pierde contexto en cláusulas distantes. Requiere validación exhaustiva.
4 min + errores
Oct 2025
Cabe completo (200K). 45 segundos. Buena calidad pero pierde matices en cláusulas cruzadas complejas.
45 seg, bueno
Feb 2026
1M tokens. 8 seg. Detecta conflictos entre cláusulas separadas por 60 páginas. Un agente OpenClaw lo ejecuta solo mientras duermes.
8 seg, autónomo
04 — Los hitos que importan

No solo más modelos. Nuevas capacidades.

→ Para tu empresa: cada uno de estos avances abre posibilidades que no existían 90 días atrás. Las empresas que los entienden primero, los usan primero.

Grok 4.2 Beta · 17 Feb
Primer modelo que aprende y mejora semanalmente post-lanzamiento. 4 agentes en paralelo. Ganó US$2,193 en competencia de trading vs GPT-5.1 y Gemini 3.
Aprendizaje continuo
Gemini 3 Deep Think · Ene
Razonamiento extendido de Google. Chains de pensamiento de 10-15 pasos coherentes. Supera expertos humanos en GPQA Diamond (91.9% vs ~89.8%).
Supera PhDs
Claude Opus 4.6 · 5 Feb
Agent Teams: múltiples agentes coordinados en paralelo. 1M tokens de contexto. 68.8% ARC-AGI-2 (era 37.6%). Valuación Anthropic: US$380B.
Equipos de agentes
Sonnet 4.6 · 17 Feb
Performance Opus a precio Sonnet ($3/$15 por M tokens). 79.6% SWE-bench. Devs lo prefieren sobre Opus 4.5 59% del tiempo. La brecha Opus-Sonnet colapsa.
Opus por 1/5 del precio
🦞 OpenClaw · Ene 2026
Agente autónomo open-source. 145K GitHub stars en 7 días — el más rápido de la historia. Ejecuta tareas reales: email, calendario, compras, trading, dev. El "ChatGPT moment" de los agentes.
Agentes para todos
China Wave · Feb 2026
GLM-5 (Zhipu, open-source en chips Huawei), Qwen 3.5 (Alibaba), Doubao 2.0 (ByteDance). La carrera es ahora US vs China × Open Source vs Closed.
Competencia global
Claude Mythos · 7 Abr
Tan poderoso en ciberseguridad que Anthropic no lo lanza al público. Project Glasswing: 40+ empresas usan Mythos para encontrar zero-days en cada OS y browser mayor.
Demasiado poderoso
GLM-5.1 · 7 Abr
Zhipu AI open-source (MIT). #1 en SWE-Bench Pro (58.4) superando a GPT-5.4, Opus 4.6 y Gemini 3.1 Pro. 744B MoE, trabaja 8 horas autónomamente en tareas de código.
Open-source líder
Meta Muse Spark · 8 Abr
Primer modelo de Meta Superintelligence Labs bajo Alexandr Wang. Multimodal (voz, texto, imagen). Open-source. Desplegado en WhatsApp, Instagram, Facebook y Ray-Ban AI.
Meta se reinventa
GPT-5.5 «Spud» · 23 Abr
Primer modelo reconstruido desde cero desde GPT-4.5. Procesa texto, imagen, audio y video en una sola arquitectura. 82.7% en Terminal-Bench 2.0 — nuevo estado del arte en uso de computador.
Retrain completo
Claude Opus 4.8 · 28 May
Dynamic Workflows: Claude planifica una tarea grande y lanza cientos de subagentes en paralelo en una sola sesión. Más honesto — señala sus propias incertidumbres en vez de afirmar de más.
Cientos de agentes
Gemini 3.5 Flash · 19 May
Anunciado en vivo en Google I/O, disponible al instante. Inteligencia frontier a 4× la velocidad de modelos comparables, con 1M de contexto a $1.50/$9 por millón de tokens.
Frontier a 4× velocidad
Microsoft MAI · 2 Jun
7 modelos propios en Build 2026 (razonamiento, código, voz, imagen). Entrena desde cero, sin destilar de otros labs. Comparable a GPT-5.4 hasta 10× más eficiente. El mayor inversor de OpenAI ahora construye lo suyo.
Microsoft se independiza