GPT-4o : Le Nouveau Modèle d’OpenAI

Le 13 mai 2024, OpenAI a dévoilé son dernier modèle de langage, GPT-4o. Cette version améliorée de GPT-4 est désormais accessible à tous les utilisateurs gratuits de ChatGPT. Voici ce que vous devez savoir sur cette avancée majeure :

Qu’est-ce que GPT-4o ?

  • GPT-4o (le “o” pour “omni”) est notre nouveau modèle phare qui peut raisonner à travers l’audio, la vision et le texte en temps réel.
  • Il accepte en entrée n’importe quelle combinaison de texte, audio et image, et génère des sorties dans n’importe quelle combinaison de ces modalités.
  • Il peut répondre à des entrées audio en seulement 232 millisecondes, avec une moyenne de 320 millisecondes, ce qui est similaire au temps de réponse humain dans une conversation.
  • GPT-4o égale les performances de GPT-4 Turbo sur le texte en anglais et le code, avec une amélioration significative sur le texte dans les langues non anglaises. De plus, il est beaucoup plus rapide et 50 % moins cher en API.
  • GPT-4o excelle particulièrement dans la compréhension de la vision et de l’audio par rapport aux modèles existants.

Capacités du modèle

Voici quelques exemples des capacités de GPT-4o :

  • Interaction en temps réel entre deux GPT-4o, y compris le chant harmonisé.
  • Préparation aux entretiens d’embauche.
  • Jeu de “Pierre-papier-ciseaux”.
  • Compréhension du sarcasme.
  • Mathématiques avec Sal et Imran Khan.
  • Traduction en temps réel.
  • Chant de berceuse.
  • Service clientèle (preuve de concept).
  • Et bien plus encore !

Avantages par rapport aux modèles précédents

Avant GPT-4o, vous pouviez utiliser le mode vocal pour parler à ChatGPT avec des latences moyennes de 2,8 secondes (GPT-3.5) et 5,4 secondes (GPT-4). Cependant, ce processus impliquait trois modèles distincts : un modèle simple transcrivait l’audio en texte, GPT-3.5 ou GPT-4 traitait le texte et produisait du texte, et un troisième modèle simple convertissait ce texte en audio. Malheureusement, cette approche entraînait une perte d’informations importante, car GPT-4 ne pouvait pas directement observer le ton, les locuteurs multiples ou les bruits de fond, ni produire de rire, de chant ou d’émotion.

Avec GPT-4o, nous avons entraîné un nouveau modèle unique de bout en bout, capable de traiter le texte, la vision et l’audio. Toutes les entrées et sorties sont maintenant gérées par le même réseau neuronal. Bien que nous n’ayons encore qu’effleuré les capacités de ce modèle, il représente une avancée majeure dans l’interaction homme-machine.


Retrouvez la vidéo de présentation par OpenAI: 



GPT-4o : Le Nouveau Modèle d’OpenAI
AZYLIS, Ivann KUDELKA 15 mai 2024
Partager cet article
Étiquettes
Archive