Un curieux détail des modèles d’IA populaires d’Openai – comme le modèle GPT-4O utilisé dans Chatgpt – est que malgré le nom, les modèles d’Openai ne sont pas extrêmement open-source. OpenAI a maintenant publié deux nouveaux modèles de langue ouverte de gros poids, cependant, connus sous le nom de GPT-OSS-20B et GPT-ASS-120B, offrant aux développeurs un accès direct à un raisonnement IA à haute performance qui peut fonctionner sur tout, des infrastructures cloud aux cartes graphiques RTX de qualité grand public.
Construites sur une architecture de mélange d’Experts et formées à l’aide de GPU H100 de NVIDIA, ces modèles sont conçus pour des tâches de raisonnement complexe et multi-étapes, comme la génération de code, l’analyse des documents et l’utilisation d’outils, y compris la recherche Web, si vous activez cette fonction.

L’annonce fait partie d’une poussée plus large d’OpenAI et de NVIDIA pour rendre l’IA avancée plus accessible aux développeurs, aux chercheurs et aux amateurs. Il souligne également la stratégie continue de Nvidia d’intégrer étroitement son écosystème matériel et logiciel dans le paysage d’IA open-source en évolution rapide. La société a travaillé avec OpenAI pour optimiser les nouveaux modèles pour tout, des déploiements de données multi-racks à l’inférence locale sur les PC haut de gamme.
À l’échelle du cloud, NVIDIA rapporte que son système Blackwell GB 200 NVL72 peut pousser les performances d’inférence à 1,5 million de jetons par seconde avec le modèle GPT-ASS-120B, qui est un certain nombre visant carrément les organisations qui déploient des services d’IA à grande échelle. La précision 4 bits NVFP4 de Blackwell n’est pas utilisée ici, mais le format MXFP4 que les modèles faire L’utilisation aide à garder la puissance et l’utilisation de la mémoire en contrôle tout en prenant en charge les charges de travail paramètres des milliards de milliards de dollars en temps réel.
La partie la plus remarquable de cette version est peut-être ce que cela signifie pour l’inférence locale. Les développeurs peuvent désormais exécuter les mêmes modèles sur GeForce RTX et RTX Pro GPU, avec des performances à l’échelle prétendument jusqu’à 256 jetons par seconde sur le GeForce RTX 5090. C’est assez rapide pour prendre en charge les interactions saisissantes dans les UIS de chat locaux et le support des modèles pour 2 pour 217-Les Windows de contexte-token ouvrent la porte au raisonnement profond au niveau du document, quelque chose généralement réservé aux systèmes de qualité serveur.

Heureusement, la configuration est également plus rationalisée que par le passé. L’application Olllama comprend désormais la prise en charge officielle des modèles GPT-ASS, permettant aux utilisateurs de charger, de discuter et de bricoler avec eux directement sur leurs propres systèmes. Les pièces jointes de fichiers, les personnalisations de contexte et même la prise en charge multimodale sont toutes intégrées, bien que les fonctionnalités multimodales ne soient pas disponibles avec ces nouveaux modèles. Pour les développeurs, il y a aussi un accès CLI et SDK, ainsi que la prise en charge d’autres cadres comme Llama.cpp et Microsoft AI Foundry Local.
C’est un changement notable: les modèles de raisonnement puissants ne sont plus seulement quelque chose que vous accédez via une API. Avec le bon matériel et un peu de configuration, ils peuvent maintenant s’exécuter localement et être toujours assez rapides pour être utiles. Pour commencer avec Olllama et essayer ces modèles sur votre propre GPU RTX de 16 Go ou moi-même, vous pouvez suivre les instructions sur Blog officiel de Nvidia.