Anthropic arrincona a Gemini 3 Pro y GPT-5.2 más que nunca – El diario andino

Piensa por un momento en los modelos de inteligencia artificial que has utilizado en los últimos días. Pudo haber sido a través de ChatGPT, Gemini o Claude, o quizás a través de herramientas como Codex, Claude Code o Cursor AI. En la práctica, la elección suele ser sencilla: acabamos utilizando lo que mejor se adapta a lo que necesitamos en cada momento, casi sin pararnos a pensar en la tecnología que hay detrás.
Sin embargo, ese equilibrio cambia con frecuencia. Cada nuevo modelo que aparece promete mejoras, nuevas capacidades o formas diferentes de trabajar, y con ello vuelve una pregunta bastante directa: si merece la pena probarlo, si realmente puede ofrecernos algo mejor o si con lo que ya utilizamos aún es suficiente. Claude Sonnet 4.6 acaba de pasar a primer planoy así se posiciona frente a la competencia.
El punto de partida de Claude Sonnet 4.6. Aquí encontramos lo que Anthropic describe como una mejora transversal de capacidades, que incluye avances en codificación, uso de computadoras, razonamiento de contexto largo, planificación de agentes y tareas propias del trabajo intelectual y creativo. A este conjunto se agrega una ventana de contexto de hasta un millón de tokens en versión beta, diseñada para procesar bases de código completas, contratos extensos o grandes colecciones de información sin fragmentación.
Tres niveles, el mismo mapa. Para entender dónde encaja Sonnet 4.6, vale la pena observar cómo Anthropic tiende a organizar su familia de modelos en diferentes niveles con diferentes objetivos. Haiku prioriza la velocidad y la eficiencia, Opus se reserva para tareas que requieren un razonamiento más profundo y Sonnet ocupa el término medio, diseñado como un equilibrio entre capacidad y coste operativo. En este marco, la compañía sostiene que el nuevo Sonnet se acerca en algunos aspectos reales a las prestaciones que antes se asociaban al Opus, una afirmación ambiciosa.
Cuando la IA comienza a usar la computadora. Una de las mejoras que Anthropic destaca con más fuerza en Sonnet 4.6 es su avance en lo que llama uso de la computadoraes decir, la capacidad del modelo para interactuar con el software de forma similar a una persona, sin depender de API diseñadas específicamente para la automatización. Este avance está avalado por referentes como OSWorld-Verified, un entorno de pruebas con aplicaciones reales donde la familia Sonnet ha ido mejorando de forma constante durante varios meses. La empresa también reconoce límites y riesgos de los que hemos hablado antes, como intentos de manipulación mediante inyección inmediata.
Buscando el ‘mejor’ modelo. Llegados a este punto, la pregunta relevante deja de ser cuánto ha mejorado Sonnet 4.6 en términos absolutos y empieza a centrarse en cómo se compara con el resto de modelos grandes que hoy compiten por el mismo espacio de uso. La comparación no es sencilla ni permite elegir un único ganador, porque cada sistema sobresale en diferentes áreas y responde a diferentes prioridades técnicas. Por eso es recomendable leer el puntos de referencia con una mirada práctica, identificando en qué tareas específicas aparecen las diferencias reales.
Donde cada modelo destaca. La comparación directa con GPT-5.2 dibuja una distribución de puntos fuertes más que una victoria clara. Según la tabla publicada por Anthropic, Sonnet 4.6 destaca especialmente en el uso autónomo del ordenador medido en OSWorld-Verified, además de mostrar ventaja en tareas de oficina (GDPval-AA Elo) y en algunos escenarios de análisis o resolución de problemas (Finance Agent v1.1, ARC-AGI-2). GPT-5.2, por su parte, mantiene mejores resultados en razonamiento a nivel de posgrado (GPQA Diamond), comprensión visual (MMMU-Pro) y programación de terminales (Terminal-Bench 2.0), con matices como resultados marcados como Pro en algunas pruebas.
La comparación con Gemini 3 Pro introduce un matiz diferente, porque aquí las ventajas se concentran sobre todo en el campo del razonamiento y el conocimiento general. El modelo de Google obtiene mejores resultados en pruebas de razonamiento de posgrado (GPQA Diamond) y en cuestionarios multilingües de amplio alcance (MMMLU), además de estar a la cabeza en razonamiento visual sin herramientas (MMMU-Pro). Sonnet 4.6, por otro lado, conserva cierta ventaja cuando entran en juego herramientas externas o escenarios más cercanos al trabajo aplicado. La ausencia de algún dato comparable en la propia tabla obliga, en cualquier caso, a interpretar este duelo con cautela.
Dónde se puede utilizar Sonnet 4.6. El nuevo modelo está disponible en todos los planes de Claude, incluido el nivel gratuito, donde también se convierte en la opción predeterminada dentro de claude.ai y Claude Cowork. También se puede utilizar a través de Claude Code, la API y las principales plataformas en la nube, manteniendo el mismo precio que la versión Sonnet 4.5.
Después de pasar por capacidades, límites y comparaciones, la verdadera decisión vuelve a la vida diaria del usuario. Sonnet 4.6 pretende ser especialmente útil en tareas productivas, interacción directa con software y flujos de trabajo largos, mientras que GPT-5.2 y Gemini 3 Pro mantienen ventajas en razonamiento académico, comprensión visual o conocimiento general dependiendo de la prueba considerada. Nadie domina todos los frentes, y esta fragmentación dice mucho sobre el momento actual de la IA.
Imágenes | antrópico
En | En 2025, la IA parecía haber topado con un muro de progreso. Un muro volatilizado en febrero de 2026
En | La gran revolución de GPT-5.3 Codex y Claude Opus 4.6 no es que sean más inteligentes. Es que pueden mejorarse


