Punto clave de esta nota

Claude Opus 4.7 alcanza un 64.3% en el benchmark SWE-bench Pro, superando directamente al modelo GPT-5.4 de OpenAI.

Punto clave de esta nota

El modelo triplica su resolución de procesamiento de imágenes hasta 3.75 megapíxeles, mejorando la extracción de datos en documentos complejos.

Punto clave de esta nota

Anthropic limitó intencionalmente las capacidades de ciberseguridad del modelo durante su entrenamiento para prevenir usos maliciosos y mitigar riesgos.

Anthropic lanza Opus 4.7: Supera a GPT-5.4 en código autónomo

El nuevo modelo insignia de Anthropic mejora drásticamente en tareas de código, pero reduce deliberadamente sus capacidades de ciberseguridad durante el entrenamiento.

Daniela Díaz Gutiérrez

Editora de Tecnología (freelance) · Universidad Andrés Bello (UNAB)

Publicado el 26 de abril de 2026

Publicado el 26 de abril de 2026 · 07:14 a. m.5 min de lectura

Al grano

Claude Opus 4.7 alcanza un 64.3% en el benchmark SWE-bench Pro, superando directamente al modelo GPT-5.4 de OpenAI.
El modelo triplica su resolución de procesamiento de imágenes hasta 3.75 megapíxeles, mejorando la extracción de datos en documentos complejos.
Anthropic limitó intencionalmente las capacidades de ciberseguridad del modelo durante su entrenamiento para prevenir usos maliciosos y mitigar riesgos.

Por qué importa

Por qué importa: El lanzamiento de Claude Opus 4.7 marca un punto de inflexión interesante para los desarrolladores y empresas en América Latina. Mientras la carrera de los LLM suele centrarse en la fuerza bruta, la decisión de Anthropic de 'frenar' las capacidades de ciberseguridad demuestra una madurez regulatoria proactiva y un enfoque en la seguridad. Para los equipos de ingeniería en la región, la mejora al 64.3% en SWE-bench Pro significa una automatización de código mucho más confiable para startups que buscan escalar rápido con recursos limitados. Sin embargo, el cambio en el tokenizador es un detalle crítico: aunque los precios nominales no suben, el aumento del 35% en el consumo de tokens impactará directamente en los presupuestos de infraestructura cloud, obligando a optimizar los pipelines de IA antes del despliegue en producción.

El nuevo modelo insignia de Anthropic, Claude Opus 4.7, ofrece mejoras importantes en tareas de programación. Durante el entrenamiento, la compañía intentó deliberadamente reducir ciertas capacidades de ciberseguridad.

Anthropic ha lanzado Claude Opus 4.7, una actualización directa de su predecesor, Opus 4.6. La compañía posiciona el modelo principalmente como un paso adelante en la programación autónoma. En el benchmark de código SWE-bench Pro, Opus 4.7 obtiene un 64.3 por ciento, superando el 53.4 por ciento de su predecesor y por delante del GPT-5.4 de OpenAI con un 57.7 por ciento. El propio modelo superior de Anthropic, Claude Mythos Preview, sigue liderando por un amplio margen con un 77.8 por ciento.

Anthropic señala que Opus 4.7 sigue las instrucciones con mayor precisión que su predecesor. La empresa destaca que los prompts escritos para modelos más antiguos ahora podrían producir resultados inesperados, ya que Opus 4.7 interpreta las instrucciones de manera más literal que Opus 4.6, el cual a veces las interpretaba libremente o se saltaba partes por completo.

Gráfico de rendimiento de Claude Opus 4.7

La resolución de imagen se triplica para una mejor comprensión visual

Opus 4.7 procesa imágenes de hasta 2,576 píxeles en el borde más largo, lo que según Anthropic equivale a aproximadamente 3.75 megapíxeles, más del triple de lo que los modelos anteriores de Claude podían manejar. Esto no es un ajuste de la API, sino un cambio a nivel del modelo: las imágenes se procesan automáticamente a mayor resolución, aunque como resultado consumen más tokens. Los usuarios que no necesiten el detalle adicional pueden reducir la resolución de las imágenes antes de enviarlas.

Anthropic ve esto como una ventaja importante para los agentes de uso de computadora (computer-use agents) que necesitan leer capturas de pantalla densas y para extraer datos de diagramas complejos. En el benchmark de Razonamiento de Documentos (OfficeQA Pro), la compañía reporta una precisión del 80.6 por ciento, frente al 57.1 por ciento con Opus 4.6. Los benchmarks también muestran ganancias significativas en razonamiento biomolecular y navegación visual (ScreenSpot-Pro).

Anthropic limita deliberadamente las capacidades cibernéticas

Uno de los aspectos más notables de este lanzamiento es cómo Anthropic maneja las capacidades de ciberseguridad del modelo. La empresa afirma que intentó experimentalmente reducir ciertas capacidades cibernéticas de forma diferencial durante el entrenamiento. Las nuevas salvaguardas están diseñadas para detectar y bloquear automáticamente las solicitudes que sugieran un uso de ciberseguridad prohibido o de alto riesgo.

El contexto de esto es el recientemente anunciado Project Glasswing, en el cual Anthropic abordó los riesgos y beneficios de los modelos de IA para la ciberseguridad. La compañía había explicado que restringiría el lanzamiento del modelo más capaz, Mythos Preview, y primero probaría nuevas salvaguardas en modelos menos capaces. Opus 4.7 es el primer caso de prueba para esta estrategia.

Los investigadores de seguridad que deseen usar el modelo para pruebas de penetración o red-teaming pueden registrarse en un nuevo Programa de Verificación Cibernética.

Las alucinaciones disminuyen pero no desaparecen

Según la tarjeta del sistema, Anthropic distingue entre dos tipos de alucinaciones: alucinaciones factuales —afirmaciones erróneas sobre el mundo, como citas inventadas o datos incorrectos— y alucinaciones de entrada (input hallucinations), donde el modelo actúa como si tuviera acceso a una herramienta o archivo adjunto que en realidad no existe.

En cuanto a las alucinaciones factuales, Opus 4.7 tiene un rendimiento superior o igual a Opus 4.6 en cuatro benchmarks, pero se queda corto frente a Mythos Preview. Anthropic dice que la brecha proviene principalmente de la mayor tasa de aciertos de Mythos Preview en datos oscuros, no de una mayor tasa de error en Opus 4.7.

Para las alucinaciones de entrada, Opus 4.7 logra la tasa de alucinación más baja de todos los modelos probados cuando los usuarios solicitan una herramienta que no está disponible. Cuando falta información de contexto, se acerca a Mythos Preview y se sitúa muy por delante de los modelos más antiguos. Sin embargo, Anthropic reconoce que los casos de prueba para el conjunto de herramientas se adaptaron a las debilidades de Opus 4.6, lo que sesga los resultados de ese modelo.

Al lidiar con preguntas basadas en hechos inventados, Opus 4.7 rinde a la par que Opus 4.6 y por debajo de Mythos Preview. Bajo presión, como cuando los usuarios o los prompts del sistema empujan al modelo a contradecir su propia evaluación, Opus 4.7 es más honesto que Opus 4.6 pero menos firme que Mythos Preview.

Los resultados de alineación son mixtos

En general, Anthropic describe el perfil de seguridad de Opus 4.7 como similar al de Opus 4.6, con bajas tasas de engaño, adulación y cooperación con el mal uso. El modelo es más resistente a los ataques de inyección de prompts (prompt injection).

Un problema conocido de los modelos anteriores de Claude persiste parcialmente: negarse a ayudar con investigaciones legítimas de seguridad en IA. Según la tarjeta del sistema, Opus 4.7 todavía se niega a asistir en el 33 por ciento de las tareas simuladas de investigación de seguridad. Esa es una caída significativa desde el 88 por ciento con Opus 4.6, pero sigue siendo una proporción sustancial.

Mismos precios por token, costos reales potencialmente mucho más altos

Los precios se mantienen en USD 5 por millón de tokens de entrada y USD 25 por millón de tokens de salida. Sin embargo, Opus 4.7 usa un nuevo tokenizador que puede mapear el mismo texto en hasta 1.35 veces más tokens. El modelo también genera más tokens de salida en niveles de esfuerzo más altos. En la práctica, el costo por solicitud puede aumentar significativamente a pesar de que los precios por token permanecen sin cambios.

Comparativa de uso de tokens en Claude Opus 4.7

Un nuevo nivel de esfuerzo llamado "xhigh" se ubica entre "high" y "max". Claude Code también recibe un nuevo comando "/ultrareview" para revisiones de código dedicadas y un "Modo Automático" expandido para usuarios Max, donde Claude toma decisiones por su cuenta. Opus 4.7 está disponible a través de la API de Claude, Amazon Bedrock, Google Cloud Vertex AI y Microsoft Foundry.

Más detalles y consejos están disponibles en la guía de migración para Opus 4.7.

Noticias de IA sin el hype – Curadas por humanos

Suscríbete a THE DECODER para una lectura sin publicidad, un boletín semanal de IA, nuestro informe exclusivo de frontera "AI Radar" seis veces al año, acceso completo al archivo y acceso a nuestra sección de comentarios.

Noticias de IA sin el hype Curadas por humanos.

Más del 16% de descuento.

Lee sin distracciones – sin anuncios de Google.

Acceso a comentarios y discusiones de la comunidad.

Boletín semanal de IA.

6 veces al año: “AI Radar” – inmersiones profundas en temas clave de IA.

Hasta 25 % de descuento en eventos en línea de KI Pro.

Acceso a nuestro archivo completo de diez años.

Obtén las últimas noticias de IA de The Decoder.

Vía The Decoder.

Publicado originalmente en The Decoder.

Etiquetas

#anthropic #claude-opus #llm #ciberseguridad #programacion-ia

Sobre esta cobertura: Esta nota fue traducida del idioma original al español con apoyo de inteligencia artificial y revisada editorialmente por Daniela Díaz Gutiérrez, editora de tecnología (freelance) (Universidad Andrés Bello (UNAB)). La política editorial de MechaNoticias exige verificación humana de cifras, atribuciones y contexto antes de publicar.

Suscríbete y recibe las 5 noticias más importantes cada mañana

Selección editorial diaria con la cobertura técnica de IA, robótica, electrónica y microcontroladores que importa. Un solo correo en tu bandeja a primera hora. Sin clickbait, sin ruido.

Sin spam. Puedes cancelar con un click desde cualquier correo.

Comentarios

Sé el primero en aportar.

Formato: **negrita** *cursiva* `código` [link](url)

0/4000

Cargando comentarios…

Seguir leyendo

Anthropic lanza Claude Opus 4.7: un salto superior en cada dimensión

El nuevo modelo SOTA supera a su predecesor en visión, programación y tareas complejas, manteniendo los precios de API a pesar de su mayor potencia.

Latent Spacehace 19 horas

Anthropic reconoce tres errores en Claude Code y refuerza sus controles

Cambios en razonamiento, caché y longitud de respuesta se combinaron durante semanas para degradar la calidad del agente sin ser detectados por los equipos internos.

The Decoderayer

Anthropic lanza Claude Design: prototipos y presentaciones con IA

La nueva herramienta experimental utiliza el modelo Opus 4.7 para transformar descripciones de texto en prototipos funcionales, presentaciones y sistemas de diseño editables.

WWWhatsNewhace 20 horas

Anthropic lanza memoria exportable para Claude Managed Agents

La nueva capa de memoria guarda lecciones entre sesiones, mantiene los archivos inspeccionables y permite migrarlos a otro proveedor sin lock-in.

WWWhatsNewayer

→Al grano

✦Por qué importa

La resolución de imagen se triplica para una mejor comprensión visual

Anthropic limita deliberadamente las capacidades cibernéticas

Las alucinaciones disminuyen pero no desaparecen

Los resultados de alineación son mixtos

Mismos precios por token, costos reales potencialmente mucho más altos

Noticias de IA sin el hype – Curadas por humanos

Noticias de IA sin el hype Curadas por humanos.

Suscríbete y recibe las 5 noticias más importantes cada mañana

Seguir leyendo

Anthropic lanza Claude Opus 4.7: un salto superior en cada dimensión

Anthropic reconoce tres errores en Claude Code y refuerza sus controles

Anthropic lanza Claude Design: prototipos y presentaciones con IA

Anthropic lanza memoria exportable para Claude Managed Agents

Al grano

Por qué importa