LiveLingoLiveLingoTry free

Gemini 3.5 Live Translate : Fonctionnalités, Limites et Fonctionnement (2026)

Google a lancé Gemini 3.5 Live Translate le 9 juin 2026 — un modèle audio basé sur Gemini 3 Pro qui diffuse la traduction vocale en temps réel dans plus de 70 langues, détectant automatiquement la langue source et générant une sortie qui préserve l'intonation, le rythme et la hauteur de la voix de l'orateur. Ce guide couvre ses fonctionnalités, les limitations identifiées par la propre fiche technique de Google, comment y accéder, et où il se positionne par rapport aux autres outils de traduction vocale.

Professionnels divers lors d'un appel vidéo multilingue, avec la parole traduite qui circule en continu entre les interlocuteurs.

1. 1. Ce qu'est Gemini 3.5 Live Translate

Gemini 3.5 Live Translate est un modèle de traduction vocale en streaming que Google a annoncé le 9 juin 2026. Deux caractéristiques le distinguent des produits de traduction précédents.

Premièrement, il fonctionne en audio-vers-audio plutôt que selon l'ancien pipeline parole-vers-texte-vers-traduction-vers-texte-vers-parole. Le modèle accepte l'audio source diffusé par segments de 100 millisecondes et produit de la parole traduite en sortie. Les transcriptions textuelles sont disponibles, mais uniquement comme complément de la sortie parlée — il n'y a pas de mode texte en streaming et pas d'attribution de locuteur dans l'audio traduit.

Deuxièmement, la voix générée est conçue pour préserver la prosodie du locuteur. L'annonce de Google décrit une sortie qui conserve l'intonation, le rythme et la hauteur de la voix de l'orateur. En pratique, cela produit une voix traduite qui sonne considérablement plus naturelle qu'un moteur de synthèse vocale générique lisant une traduction à haute voix — un véritable avantage par rapport aux systèmes de traduction vocale dont la sortie audio passe par une couche TTS standard.

Le modèle est basé sur Gemini 3 Pro. Selon la fiche technique du modèle Gemini 3.5 Audio publiée par Google DeepMind, il accepte l'entrée audio avec une fenêtre de contexte allant jusqu'à 128K tokens et produit une sortie audio + texte jusqu'à 64K tokens. Il détecte automatiquement plus de 70 langues, y compris les changements rapides de langue entre locuteurs, bien que cette détection ait des faiblesses documentées (couvertes dans la Section 4).

Le lancement couvre trois surfaces produit en parallèle : l'accès développeur via l'API Gemini Live et Google AI Studio (aperçu public à partir du 9 juin 2026) ; l'accès consommateur via l'application Google Translate sur Android et iOS, déployée mondialement à partir de ce jour, avec un nouveau « mode d'écoute » sur Android ; et l'accès entreprise via Google Meet en aperçu privé pour certains clients Google Workspace, où il étend la couverture de traduction de Meet de 5 langues à plus de 70 et prend en charge plus de 2 000 combinaisons source/cible dans une seule réunion.

2. 2. Comment ça fonctionne : Architecture Audio-vers-Audio et Préservation de la Prosodie

Trois choix architecturaux distinguent Gemini 3.5 Live Translate des systèmes de traduction en streaming précédents.

Parole-vers-parole, pas parole-vers-texte-vers-parole

Les pipelines traditionnels font passer l'audio par un modèle de reconnaissance vocale en streaming, alimentent la transcription dans un modèle de traduction automatique, puis synthétisent la traduction via un modèle de synthèse vocale séparé. Chaque étape ajoute de la latence et accumule des erreurs. Gemini 3.5 Live Translate intègre ces étapes en un seul modèle audio. Le compromis : la sortie est de l'audio permanent, pas du texte modifiable — une fois qu'un mot est prononcé, il ne peut pas être révisé en cours d'énonciation.

Streaming continu, pas basé sur les tours de parole

L'annonce de Google présente le modèle comme un système qui « équilibre le compromis entre attendre le contexte pour améliorer la qualité et traduire immédiatement pour rester synchronisé avec l'orateur ». Les produits consommateur précédents comme le mode Conversation précédent de Google Translate étaient basés sur les tours : appuyer, parler, attendre que le système finalise et émette la traduction, puis laisser l'autre partie appuyer. Gemini 3.5 Live Translate émet de la parole traduite en continu pendant que l'orateur source parle encore, Google décrivant un décalage de « quelques secondes ».

Transfert de prosodie

Le modèle est conçu pour transporter les caractéristiques vocales de l'orateur source — intonation, rythme, emphase, hauteur — dans l'audio traduit. C'est la principale raison technique pour laquelle la sortie sonne naturelle plutôt que robotique. C'est aussi la source des limitations de cohérence vocale que la fiche technique de Google divulgue (Section 4).

Sur la surface développeur, chaque session utilise de l'audio PCM 16 bits brut à 16 kHz mono en entrée et produit de l'audio PCM 24 kHz mono en sortie, envoyé par segments de 100 millisecondes. Tout l'audio généré porte le filigrane SynthID de Google — une signature imperceptible tissée dans la forme d'onde qui permet aux systèmes en aval d'identifier l'audio comme généré par machine.

Smartphone affichant une interface de traduction vocale en streaming avec formes d'onde audio et sélection de langue.

3. 3. Où Gemini 3.5 Live Translate excelle

Cinq forces du produit apparaissent immédiatement lors de la comparaison de Gemini 3.5 Live Translate avec ses pairs.

Parole traduite au son naturel. La voix préservant la prosodie est l'avantage le plus clair par rapport aux systèmes de traduction vocale dont la sortie audio passe par un moteur TTS générique. Si vous avez utilisé une application de traduction vocale dont l'audio traduit sonne comme un narrateur plat lisant une chaîne de mots, le contraste est immédiat. Gemini 3.5 Live Translate est matériellement meilleur ici, et la différence est audible dès la première phrase.

Simplicité audio-vers-audio. Construire une application de traduction vocale signifiait traditionnellement chaîner un modèle STT en streaming (Whisper-large, Google Cloud Speech-to-Text, Azure Speech), un modèle de traduction et un moteur TTS — et gérer la sémantique d'émission partielle de chacun. Gemini 3.5 Live Translate remplace cette chaîne par un seul appel API, simplifiant à la fois le code d'application et la surface d'échec.

Détection automatique de langue à grande échelle. Plus de 70 langues détectées automatiquement, sans besoin pour l'utilisateur de définir une paire de langues à l'avance. Le positionnement de Google met l'accent sur des cas d'usage comme les réunions multi-parties où les locuteurs changent de langue en cours de conversation.

Distribution. Intégré directement dans l'application consommateur Google Translate et Google Meet. Pour les utilisateurs finaux, le coût d'installation et de découverte est proche de zéro — ils ont déjà l'application. Pour les clients Meet, la traduction arrive comme un bouton de fonctionnalité dans un workflow déjà utilisé.

Sortie filigranée. Le filigranage SynthID rend la parole générée identifiable comme générée par IA pour les cas d'usage de conformité en aval, ce qui est utile dans les industries réglementées qui doivent tracer le contenu généré par IA.

4. 4. Ce que la propre fiche technique de Google admet comme limitations

La fiche technique du modèle Gemini 3.5 Audio publiée par Google DeepMind documente des limitations connues spécifiques de Gemini 3.5 Live Translate. En citant directement la fiche :

Détection de langue

« La détection de langue peut avoir des difficultés avec les accents non natifs, les langues similaires, ou les changements rapides de langue. » Implication pratique : si un locuteur a un accent fort, ou si la langue source est proche d'une langue apparentée (portugais vs. espagnol, norvégien vs. suédois), ou si la conversation change de langue rapidement, le détecteur peut choisir la mauvaise langue source et traduire en conséquence.

Cohérence vocale dans les sessions multi-locuteurs

« Les voix peuvent être incohérentes, et les voix peuvent changer après de longues pauses, changer de genre, ou rester bloquées sur une voix lors de sessions rapides multi-locuteurs. » C'est la limitation la plus pratiquement significative pour de nombreux cas d'usage. Dans une réunion avec plusieurs locuteurs prenant des tours rapides, le modèle peut produire toute la sortie traduite dans une seule voix — perdant l'attribution de locuteur sur laquelle les auditeurs comptent pour suivre la conversation.

Filtrage du bruit

« Conçu pour filtrer le bruit de fond, mais tout l'audio de fond peut ne pas être ignoré. » Les environnements du monde réel continueront à transparaître dans certaines conditions.

Contraintes du mode traduction (API développeur)

Selon la couverture de lancement citant la documentation développeur de Google, « l'entrée texte n'est pas prise en charge en mode traduction » et le modèle « abandonne l'utilisation d'outils et les instructions système dans ce mode ». Pour les développeurs, l'appel API de traduction est une surface contrainte — vous ne pouvez pas envoyer de texte, vous ne pouvez pas utiliser l'écosystème d'outils Gemini plus large, et vous ne pouvez pas injecter d'invites système. Traduction en entrée, traduction en sortie.

5. 5. Mesures indépendantes du Benchmark LiveLingo 2026

LiveLingo Research a évalué Gemini 3.5 Live Translate le jour de son lancement (9 juin 2026) selon le même protocole utilisé pour le benchmark original de Google Cloud STT v2 + Translation v3, Azure Speech Translation, et Whisper-large + GPT-4o-mini. L'addendum complet est publié sur livelingo.io/research/benchmark-2026#comprehension-gemini-live ; les chiffres principaux sont ci-dessous.

Composite de fidélité de compréhension : 4,93 / 5 sur 120 énoncés et quatre paires de langues (en→es, en→zh-CN, en→ja, en→de). C'est le résultat le plus fort parmi les quatre systèmes concurrents du benchmark ; le score le plus proche suivant est 4,77 (Google Cloud Translation v3).

Latence du premier audio : médiane 2 947 ms du début de la parole au premier audio traduit (p10–p90 : 2 859–3 104 ms). C'est un délai de parole constant d'environ 3 secondes, cohérent avec le cadrage de Google « quelques secondes de retard ».

La sortie est uniquement de la parole traduite. L'API n'a pas de mode texte en streaming et pas d'attribution par locuteur. Les transcriptions textuelles sont disponibles comme complément de la sortie parlée. La sortie parlée ne peut pas être révisée après émission.

Audio avec alternance codique. Sur un extrait de nouvelles en mandarin qui passe à des interviews de rue en anglais à 86 secondes, le benchmark LiveLingo a enregistré que la sortie de la traduction s'arrête au moment du changement à chaque exécution : la parole déjà dans la langue de sortie n'est ni traduite ni transcrite, de sorte que les 34 dernières secondes de contenu (~28% du clip) disparaissent silencieusement pour l'auditeur sans qu'aucune erreur ne soit signalée. gpt-realtime-translate d'OpenAI montre le même comportement sur le même extrait, et OpenAI documente que l'omission de la parole dans la langue de sortie est intentionnelle ; il s'agit d'une limite structurelle des traducteurs parole-à-parole actuels sur l'audio multilingue.

Inversion factuelle sur syntaxe à résolution tardive. Sur un clip de discours d'affaires en mandarin, une phrase décrivant une augmentation des ventes de 15% s'est rendue en anglais comme un objectif d'augmenter les ventes de 15%. C'est la classe d'erreur que l'engagement audio irréversible en milieu de phrase produit quand la langue source reporte l'élément porteur de sens (la polarité, la référence temporelle, le sujet) jusqu'à tard dans la phrase.

Ce sont des mesures indépendantes, pas les propres chiffres de Google ; la méthodologie et les données brutes par énoncé sont dans l'addendum publié.

6. 6. Comment accéder à Gemini 3.5 Live Translate

Consommateur — Application Google Translate

Mettez à jour l'application Google Translate vers sa dernière version sur Android ou iOS. Le mode Live Translate se déploie mondialement à partir du 9 juin 2026 — la disponibilité dépend du calendrier de déploiement du store dans votre région. Sur Android, un nouveau « mode d'écoute » vous permet d'entendre la parole traduite directement via l'écouteur de votre appareil.

Développeur — API Gemini Live + Google AI Studio

Le modèle est disponible en aperçu public via l'API Gemini Live et via Google AI Studio. Selon la couverture de lancement, les contraintes d'intégration sont spécifiques : entrée audio uniquement (pas d'entrée texte en mode traduction), pas d'utilisation d'outils ou d'instructions système, entrée PCM 16 bits brute 16 kHz mono segmentée à 100 ms, sortie PCM 24 kHz. Référez-vous à Google AI Studio pour les quotas et tarifs actuels.

Entreprise — Google Meet

Gemini 3.5 Live Translate est en aperçu privé pour certains clients Google Workspace à partir du 9 juin 2026. Quand activé, il étend la couverture de traduction de Meet de 5 langues à plus de 70 langues et prend en charge plus de 2 000 combinaisons source/cible dans une seule réunion. La disponibilité est progressive, pas universelle.

7. 7. Quand utiliser Gemini 3.5 — et quand un autre outil convient mieux

Quand Gemini 3.5 Live Translate est le bon choix

  • Vous voulez de la parole traduite, pas du texte traduit. La sortie vocale naturelle est le plus grand avantage du produit.
  • Vous êtes déjà dans l'application Google Translate ou Google Meet. L'intégration est à coût zéro pour découvrir et utiliser.
  • Vos conversations sont en tête-à-tête, ou ont une prise de parole claire avec des pauses entre locuteurs. Les limitations de cohérence vocale que la fiche technique de Google divulgue sont plus faibles dans ces contextes.
  • Vous construisez une application développeur où simplifier la chaîne STT → MT → TTS en une seule API importe plus que le contrôle fin de chaque étape.
  • Vous pouvez vivre sans attribution de locuteur dans la sortie audio, et sans transcriptions textuelles en streaming.

Quand vous pourriez préférer un outil différent

  • Vous avez besoin de texte en streaming à côté ou au lieu de l'audio. Le texte en streaming est ce que la plupart des interfaces de production montrent à l'écran pendant le sous-titrage en direct, la traduction de conférence et les scénarios d'accessibilité. Le texte de Gemini 3.5 Live Translate est uniquement en complément.
  • Vous avez besoin d'attribution par locuteur dans la sortie traduite. La divulgation de la fiche technique « peut rester bloqué sur une voix lors de sessions rapides multi-locuteurs » fait de ceci un risque réel pour les réunions.
  • Vous traduisez des conversations où la stabilité importe plus que l'expressivité. La sortie audio ne peut pas être révisée en milieu d'énonciation, donc sur les langues avec syntaxe à résolution tardive (polarité mandarine à la fin de phrase, verbe japonais à la fin de phrase), un engagement précoce peut inverser le sens. L'addendum du benchmark documente un tel cas.
  • Vous avez besoin d'appels téléphoniques traduits — composer un numéro PSTN avec traduction fonctionnant sur la ligne. L'API Gemini Live est un bloc de construction pour développeurs, pas un fournisseur d'appels téléphoniques.

Une concession honnête. LiveLingo, le produit publiant ce guide, correspond à la seconde colonne sur la plupart de ces dimensions : sortie texte + audio en streaming, attribution par locuteur, engagement fermé monotone donc les traductions affichées ne sont jamais rétractées, appels téléphoniques sortants traduits. La sortie audio de LiveLingo, cependant, utilise le moteur de synthèse vocale par défaut de la plateforme hôte (iOS natif sur les appareils Apple), qui sonne moins naturel que la voix générée de Gemini 3.5 Live Translate. C'est un véritable avantage que Google a livré aujourd'hui. Comparez les spécifications côte à côte sur livelingo.io/compare/google-translate, ou les chiffres de benchmark mesurés sur livelingo.io/research/benchmark-2026.

8. 8. Questions fréquemment posées

Qu'est-ce que Gemini 3.5 Live Translate ?

Gemini 3.5 Live Translate est un modèle de traduction vocale en streaming lancé par Google le 9 juin 2026. Il est basé sur Gemini 3 Pro, génère de l'audio traduit qui préserve l'intonation, le rythme et la hauteur de la voix de l'orateur, et détecte automatiquement plus de 70 langues. Il est disponible aux développeurs via l'API Gemini Live et Google AI Studio (aperçu public), aux consommateurs via l'application Google Translate sur Android et iOS, et à certains clients Google Workspace via Google Meet (aperçu privé).

Quelles langues Gemini 3.5 Live Translate prend-il en charge ?

Plus de 70 langues, détectées automatiquement. Dans Google Meet spécifiquement, cela étend la couverture précédente de 5 langues à plus de 70 langues et prend en charge plus de 2 000 combinaisons source/cible dans une seule réunion.

Combien coûte Gemini 3.5 Live Translate ?

Pour les consommateurs, l'application Google Translate est gratuite. L'accès développeur via l'API Gemini Live et Google AI Studio est tarifé selon les tarifs API standard de Google — vérifiez Google AI Studio pour les tarifs actuels. L'accès entreprise via Google Meet est limité à certains clients Google Workspace en aperçu privé à partir du 9 juin 2026.

Comment Gemini 3.5 Live Translate gère-t-il plusieurs locuteurs ?

Selon la fiche technique du modèle Gemini 3.5 Audio publiée par Google DeepMind : « Les voix peuvent être incohérentes, et les voix peuvent changer après de longues pauses, changer de genre, ou rester bloquées sur une voix lors de sessions rapides multi-locuteurs. » Pratiquement : les conversations en tête-à-tête et les discussions à tour de rôle avec des pauses claires fonctionnent bien ; les scénarios rapides multi-locuteurs sont une faiblesse documentée. Il n'y a pas d'attribution par locuteur dans la sortie audio traduite.

Gemini 3.5 Live Translate produit-il du texte ?

La sortie principale est de la parole traduite. Les transcriptions textuelles sont disponibles, mais uniquement comme complément de la sortie parlée — il n'y a pas de mode texte en streaming, et l'API en mode traduction n'accepte pas l'entrée texte.

Quelle est la latence mesurée de Gemini 3.5 Live Translate ?

Google décrit le système comme restant « quelques secondes derrière l'orateur ». La mesure indépendante par LiveLingo Research le jour du lancement a enregistré une latence médiane du premier audio de 2 947 ms (p10–p90 : 2 859–3 104 ms) sur 120 énoncés de test — un délai de parole constant d'environ 3 secondes. Source : livelingo.io/research/benchmark-2026.

Quand Gemini 3.5 Live Translate a-t-il été lancé ?

Google a annoncé et commencé à déployer Gemini 3.5 Live Translate le 9 juin 2026, sur l'API Gemini Live et Google AI Studio (aperçu public développeur), l'application Google Translate sur Android et iOS (déploiement mondial à partir de ce jour), et Google Meet (aperçu privé pour certains clients Workspace).

9. 9. Sources

  • Google. Fluid, natural voice translation with Gemini 3.5 Live Translate. Blog Google, 9 juin 2026. blog.google
  • Google DeepMind. Gemini 3.5 Audio (Live Translate) — Model Card. deepmind.google
  • MarkTechPost. Google Releases Gemini 3.5 Live Translate, a Streaming Speech-to-Speech Audio Model Covering 70+ Languages Across Meet, Translate, and the Live API, 9 juin 2026. marktechpost.com
  • LiveLingo Research. Real-Time Voice Translation Benchmark 2026 — Gemini 3.5 Live Translate addendum, 9 juin 2026. livelingo.io/research/benchmark-2026

Prêt à briser la barrière linguistique ?

Essayez LiveLingo gratuitement — 5 minutes de traduction vocale temps réel chaque jour, sans carte bancaire. Passez au Pro pour les appels traduits, les mémos de réunion IA et 300 minutes par mois.

Essayer LiveLingo Gratuitement
Gemini 3.5 Live Translate : Fonctionnalités et Limites (2026) | LiveLingo