OpenAI a publié son dernier modèle d’intelligence artificielle, qui, selon elle, est capable de « penser en images », ce qui signifie qu’il peut comprendre et analyser les croquis et les diagrammes des utilisateurs, même s’ils sont de faible qualité.
Le nouveau modèle d’inférence de base d’OpenAI s’appelle o3, et la société a également publié un modèle plus petit appelé o4-mini. Auparavant, OpenAI avait publié son premier modèle de raisonnement, o1, en septembre, qui se concentre sur la résolution de problèmes complexes et la réflexion sur les réponses en plusieurs étapes.
Avec o3, les utilisateurs peuvent télécharger des tableaux blancs, des croquis et d’autres images et demander à l’IA de les analyser et d’en discuter. Les modèles peuvent également être pivotés, mis à l’échelle et utiliser d’autres outils d’édition d’images.
Depuis le lancement de son chatbot populaire ChatGPT fin 2022, OpenAI a rapidement mis à niveau ses modèles pour étendre leur portée au-delà du texte aux images, à la voix et à la vidéo. L’entreprise peine à maintenir son avance dans le domaine de l’intelligence artificielle générative et fait face à une concurrence féroce de la part de concurrents tels que Google.
, Anthropic et xAI d’Elon Musk.
« Pour la première fois, nos modèles de raisonnement sont capables d’utiliser indépendamment tous les outils de ChatGPT : navigation Web, Python, compréhension d’images et génération d’images », a écrit OpenAI. « Cela les aide à résoudre plus efficacement des problèmes complexes à plusieurs étapes et à progresser vers une action véritablement indépendante. »
La société a été évaluée à 300 milliards de dollars lors d’un tour de financement le mois dernier. L’entreprise affirme que les modèles o3 et o4-mini sont ses premiers modèles d’IA capables de « penser en images ». OpenAI explique que cela signifie que « non seulement ils voient des images, mais ils sont également capables d’intégrer des informations visuelles directement dans leur chaîne de raisonnement ».
Le mois dernier, OpenAI a publié une fonctionnalité de génération d’images natives qui est devenue virale en ligne pour sa capacité à créer des images d’anime de style Studio Ghibli.
OpenAI affirme que son modèle o3 est optimisé pour les mathématiques, le codage, la science et la compréhension d’images, tandis que le o4-mini fonctionne plus rapidement et à moindre coût. Les deux modèles sont disponibles pour les utilisateurs de ChatGPT Plus, Pro et Team à partir de mercredi.
La communauté des utilisateurs d’OpenAI se moque depuis longtemps des noms étranges ou déroutants de ses modèles d’IA. Le PDG Sam Altman a également participé à la blague cette semaine, en publiant sur le site Web de X : « Que diriez-vous de finaliser les noms des modèles d’ici cet été afin que tout le monde puisse avoir quelques mois supplémentaires pour se moquer de nous (ce que nous méritons) ? » »
La société a également déclaré que les deux modèles avaient été « testés sous contrainte selon nos procédures de sécurité les plus rigoureuses à ce jour » et étaient liés au « cadre de préparation » mis à jour plus tôt cette semaine.
OpenAI a récemment été critiqué pour les changements apportés à ses précautions et processus de sécurité. La société a déclaré cette semaine qu’elle se réservait le droit de « modifier ses exigences de sécurité » si « un autre développeur d’IA de premier plan publie un système à haut risque qui ne dispose pas de mesures de sécurité similaires ».
OpenAI a révisé sa politique cette semaine, déclarant qu’elle n’exigerait plus de tests de sécurité sur certains modèles affinés. La société a également évité de publier la « fiche modèle » du modèle GPT-4.1, un rapport contenant des informations sur les tests de sécurité effectués avant la sortie du modèle. En février, OpenAI a lancé son outil Deep Research AI Agent quelques semaines avant l’annonce de la carte mère du système.