Potencia insignia de IA a precios económicos

El industria de la inteligencia artificial se mueve a un ritmo que puede resultar agotador, pero antrópicoEl último movimiento de es difícil de ignorar. Apenas doce días después lanzando su potente modelo, Claude Opus 4.6la empresa ha lanzado Claude Sonnet 4.6. Este nuevo modelo de nivel medio está diseñado para hacer algo extraordinario: ofrecer inteligencia de “nivel Opus” a una fracción del costo.

Claude Sonnet 4.6 ofrece un rendimiento de nivel emblemático

En el mundo de la IA, siempre ha habido compensaciones. Si querías un modelo capaz de un razonamiento complejo y una codificación impecable, tenías que pagar una prima por los modelos “clase Opus”. Si querías algo más barato, tenías que conformarte con menos “capacidad intelectual”.

claudio Sonnet 4.6 está diseñado para acabar eficazmente con ese compromiso. Anthropic ha mantenido el precio en 3 dólares por millón de tokens de entrada, el mismo que la versión anterior, a pesar del enorme salto en la capacidad. Para poner esto en perspectiva, ejecutar un agente de IA de alto rendimiento es ahora aproximadamente cinco veces más barato que hace apenas unas semanas. Para las empresas que ejecutan millones de tareas automatizadas al día, esto es un gran problema.

Mejor en “ser humano” (en una computadora)

Uno de los avances más impresionantes de esta versión es el “uso de la computadora”. Esta es la capacidad de una IA para mirar una pantalla, mover un cursor y escribir en aplicaciones tal como lo haría una persona. Cuando Anthropic mostró esto por primera vez a finales de 2024, era experimental y un poco torpe.

Sonnet 4.6 ha alcanzado un nivel de competencia casi humano, según la empresa. En los puntos de referencia diseñados para probar qué tan bien la IA puede navegar por la web y las aplicaciones de escritorio, obtuvo una puntuación del 72,5%, un gran salto con respecto al 61,4% de su predecesor. Ahora es tan bueno usando una computadora que prácticamente iguala al buque insignia Opus 4.6, mucho más caro. Este es un punto de inflexión para la automatización de tareas «heredadas»: aquellas bases de datos y portales de seguros antiguos que no tienen API modernas.

¿El nuevo rey de la codificación?

Para los desarrolladores, Claude ya se ha convertido en el favorito. herramienta tecnológicay Sonnet 4.6 duplica esa reputación. En las pruebas del mundo real, los desarrolladores prefirieron sus resultados el 70% de las veces a las versiones anteriores. Según se informa, es menos propenso a la «pereza» y sigue instrucciones complejas de varios pasos con mucha mayor coherencia.

Más allá de simplemente escribir código, el modelo mostró puede «pensar a largo plazo». En una competencia empresarial simulada llamada «Vending-Bench», la IA gestionó un negocio durante un año simulado completo. Desarrolló una estrategia de invertir fuertemente en los primeros diez meses para desarrollar capacidad antes de girar para maximizar las ganancias. Terminó la simulación con más del doble del saldo de los modelos anteriores, lo que demuestra que puede planificar durante meses, no solo minutos.

Competidores como Google y OpenAI muestran retrasos y fechas de lanzamiento impredecibles. Mientras tanto, Anthropic se apega a un ciclo de actualización constante de cuatro meses. Esta coherencia permite a los CTO y a los desarrolladores planificar sus hojas de ruta con la confianza de que siempre hay un modelo mejor y más eficiente a la vuelta de la esquina. Anthropic puede utilizar esto como una ventaja competitiva para el mercado empresarial.

Soneto de Claudio 4.6 ahora es el valor predeterminado para todos, incluidos aquellos en el nivel gratuito.

Fuente: Android Headlines

Claude Sonnet 4.6 ofrece un rendimiento de nivel emblemático

Mejor en “ser humano” (en una computadora)

¿El nuevo rey de la codificación?

Deja un comentario Cancelar respuesta