Febrero 2026 — Estado del Arte

Los últimos 3 meses superaron a los 33 anteriores

La GenAI dejó de avanzar en línea recta. Lo que antes tomaba un año, ahora pasa en semanas. Estos son los datos.

20+
Modelos frontier lanzados
Nov '25 – Feb '26
25
Días entre GPT-5.1,
Gemini 3, Grok 4.1,
Opus 4.5 y GPT-5.2
145K
GitHub stars
OpenClaw en 1 semana
↓ Scroll para ver la avalancha
01 — Densidad de lanzamientos

Cada punto es un modelo frontier. Observa la compresión.

33 meses de lanzamientos distribuidos arriba. Los últimos 3 meses, abajo. El contraste visual es la historia.

Mar 2023

Oct 2025

33 meses
GPT-4
Mar '23 · OpenAI
Claude 1
Mar '23 · Anthropic
Llama 2
Jul '23 · Meta
Gemini 1.0
Dic '23 · Google
Claude 3 Opus/Sonnet
Mar '24 · Anthropic
GPT-4o
May '24 · OpenAI
Claude 3.5 Sonnet
Jun '24 · Anthropic
Llama 3.1
Jul '24 · Meta
o1-preview
Sep '24 · OpenAI
Gemini 2.0 Flash
Dic '24 · Google
DeepSeek V3
Dic '24 · DeepSeek
DeepSeek R1
Ene '25 · DeepSeek
Grok 3
Feb '25 · xAI
Gemini 2.5 Pro
Mar '25 · Google
Llama 4 Scout/Maverick
Abr '25 · Meta
Claude 4 Opus/Sonnet
May '25 · Anthropic
Grok 4
Jul '25 · xAI
GPT-5
Ago '25 · OpenAI · 272K ctx
18 modelos frontier en 33 meses ≈ 1 cada 55 días
Nov 2025

Feb 2026

~90 días
🔥 El Sprint de 25 Días — Nov/Dic 2025
GPT-5.1
12 Nov · OpenAI
Grok 4.1
17 Nov · xAI · 1483 Elo
Gemini 3 Pro
18 Nov · Google · 1er modelo >1500 Elo · 1M ctx
Claude Opus 4.5
30 Nov · Anthropic · #1 LMArena
Claude Sonnet 4.5 / Haiku 4.5
Nov · Anthropic
DeepSeek V3.2
Dic · DeepSeek · MIT · 10-30× más barato
GPT-5.2 Instant/Think/Pro
11 Dic · OpenAI · 400K ctx
⚡ Enero 2026 — Razonamiento + Agentes
o4-mini
Ene · OpenAI
DeepSeek R1
20 Ene · DeepSeek · razonamiento open-source
Gemini 3 Deep Think
Ene · Google · razonamiento extendido
🦞 OpenClaw
Ene · Open-source · 145K ⭐ GitHub en 7 días
🌊 Febrero 2026 — La Ola No Para
Claude Opus 4.6
5 Feb · Anthropic · Agent Teams · 1M ctx · 68.8% ARC-AGI-2
GLM-5
11 Feb · Zhipu · open-source · chips Huawei
Doubao 2.0
14 Feb · ByteDance
Qwen 3.5
16 Feb · Alibaba
Claude Sonnet 4.6
17 Feb · Anthropic · 79.6% SWE-bench · 1M ctx
Grok 4.2 Beta
17 Feb · xAI · aprendizaje continuo semanal
Gemini 3.1 Pro
19 Feb · Google · 77.1% ARC-AGI-2 · nuevo líder en razonamiento
20+ modelos frontier en ~90 días ≈ 1 cada 4-5 días
11×
La frecuencia de lanzamientos frontier se aceleró 11 veces: de 1 modelo cada 55 días a 1 cada 4-5 días. En noviembre 2025, cuatro empresas lanzaron su mejor modelo en 25 días consecutivos.
02 — Antes vs Después

Los números cuentan la misma historia

Comparación directa entre los primeros 33 meses de la era GenAI moderna y los últimos ~3 meses.

Primeros 33 meses
Mar 2023 → Oct 2025
Modelos frontier lanzados
~18
Mejor Elo en LMArena
~1,350
GPT-5 · Ago 2025
Contexto máximo (producción)
200K tokens
Claude 3.5 / GPT-4 Turbo
Costo input / 1M tokens (frontier)
$15 – $30
GPT-4 era pricing dominante
ARC-AGI-2 (razonamiento novel)
< 10%
Ningún modelo pasaba de un dígito
Agentes autónomos reales
0
Solo demos y prototipos de investigación
Últimos ~3 meses
Nov 2025 → Feb 2026
Modelos frontier lanzados
20+
Mejor Elo en LMArena
1,500+
Gemini 3 Pro rompió barrera histórica · Nov '25
Contexto máximo (producción)
1M – 2M tokens
Opus 4.6, Sonnet 4.6, Gemini 3, Grok 4.2
Costo input / 1M tokens (frontier)
$0.27
DeepSeek V3.2 · MIT License · hasta 50× más barato
ARC-AGI-2 (razonamiento novel)
68.8%
Opus 4.6 · +83% vs Opus 4.5 (37.6%)
Agentes autónomos reales
OpenClaw + más
145K ⭐ · Negoció US$4,200 en descuento · Agent Teams de Opus 4.6
5×–10×
En contexto (5–10×), costos (50× más barato), razonamiento (+83% ARC-AGI-2), y agentes (de 0 a producción) — cada dimensión dio un salto que antes tomaba años.
03 — Impacto concreto

La misma tarea, cuatro momentos

Analizar un contrato de 100 páginas, identificar riesgos cruzados entre cláusulas, y generar un resumen ejecutivo.

Feb 2023
No cabe. Contexto de 4K tokens. Hay que particionar manualmente. Se pierde coherencia entre secciones.
Imposible
Feb 2024
Cabe parcialmente (128K). ~4 minutos. Pierde contexto en cláusulas distantes. Requiere validación exhaustiva.
4 min + errores
Oct 2025
Cabe completo (200K). 45 segundos. Buena calidad pero pierde matices en cláusulas cruzadas complejas.
45 seg, bueno
Feb 2026
1M tokens. 8 seg. Detecta conflictos entre cláusulas separadas por 60 páginas. Un agente OpenClaw lo ejecuta solo mientras duermes.
8 seg, autónomo
04 — Los hitos que importan

No solo más modelos. Nuevas capacidades.

Grok 4.2 Beta · 17 Feb
Primer modelo que aprende y mejora semanalmente post-lanzamiento. 4 agentes en paralelo. Ganó US$2,193 en competencia de trading vs GPT-5.1 y Gemini 3.
Aprendizaje continuo
Gemini 3 Deep Think · Ene
Razonamiento extendido de Google. Chains de pensamiento de 10-15 pasos coherentes. Supera expertos humanos en GPQA Diamond (91.9% vs ~89.8%).
Supera PhDs
Claude Opus 4.6 · 5 Feb
Agent Teams: múltiples agentes coordinados en paralelo. 1M tokens de contexto. 68.8% ARC-AGI-2 (era 37.6%). Valuación Anthropic: US$380B.
Equipos de agentes
Sonnet 4.6 · 17 Feb
Performance Opus a precio Sonnet ($3/$15 por M tokens). 79.6% SWE-bench. Devs lo prefieren sobre Opus 4.5 59% del tiempo. La brecha Opus-Sonnet colapsa.
Opus por 1/5 del precio
🦞 OpenClaw · Ene 2026
Agente autónomo open-source. 145K GitHub stars en 7 días — el más rápido de la historia. Ejecuta tareas reales: email, calendario, compras, trading, dev. El "ChatGPT moment" de los agentes.
Agentes para todos
China Wave · Feb 2026
GLM-5 (Zhipu, open-source en chips Huawei), Qwen 3.5 (Alibaba), Doubao 2.0 (ByteDance). La carrera es ahora US vs China × Open Source vs Closed.
Competencia global