제미나이 3.5 라이브 번역: 기능, 한계, 작동 원리 (2026)

다국어 화상 회의에서 다양한 전문가들이 연속적으로 번역된 음성으로 소통하는 모습

1. 1. 제미나이 3.5 라이브 번역이란

제미나이 3.5 라이브 번역은 구글이 2026년 6월 9일 발표한 스트리밍 음성 간 번역 모델입니다. 기존 번역 제품과 구별되는 두 가지 특징이 있습니다.

첫째, 기존의 음성-텍스트-번역-텍스트-음성 파이프라인이 아닌 오디오 간 직접 번역입니다. 이 모델은 100밀리초 단위로 스트리밍되는 소스 오디오를 받아 번역된 음성을 출력으로 생성합니다. 텍스트 전사본은 제공되지만 음성 출력의 부가 정보로만 제공되며, 스트리밍 텍스트 모드나 번역된 오디오에서의 화자 구분은 없습니다.

둘째, 생성된 음성은 화자의 운율을 보존하도록 설계되었습니다. 구글의 발표에 따르면 출력이 화자의 억양, 속도, 음조를 유지한다고 합니다. 실제로 이는 일반적인 텍스트 음성 변환 엔진이 번역문을 읽는 것보다 훨씬 자연스러운 번역 음성을 생성합니다. 이는 표준 TTS 레이어를 통해 오디오를 출력하는 음성 번역 시스템에 비해 실질적인 장점입니다.

이 모델은 제미나이 3 Pro를 기반으로 구축되었습니다. 구글 딥마인드가 발표한 제미나이 3.5 오디오 모델 카드에 따르면, 최대 128K 토큰 컨텍스트 윈도우의 오디오 입력을 받아 최대 64K 토큰의 오디오 + 텍스트 출력을 생성합니다. 화자 간 빠른 언어 전환을 포함하여 70개 이상의 언어를 자동 감지하지만, 이 감지 기능에는 문서화된 약점이 있습니다(섹션 4에서 다룸).

출시는 세 가지 제품 영역에서 동시에 이루어졌습니다: 제미나이 라이브 API와 구글 AI 스튜디오를 통한 개발자 접근(2026년 6월 9일부터 공개 프리뷰), 안드로이드와 iOS의 구글 번역 앱을 통한 소비자 접근(해당 날짜부터 전 세계 출시, 안드로이드에서 새로운 "청취 모드" 제공), 그리고 선별된 구글 워크스페이스 고객을 위한 구글 미트를 통한 기업 접근(비공개 프리뷰)으로, 미트의 번역 지원을 5개 언어에서 70개 이상으로 확장하고 단일 회의 내에서 2,000개 이상의 소스/대상 조합을 지원합니다.

2. 2. 작동 원리: 오디오 간 아키텍처와 운율 보존

세 가지 아키텍처 선택이 제미나이 3.5 라이브 번역을 기존 스트리밍 번역 시스템과 구별합니다.

음성 간 번역, 음성-텍스트-음성이 아닌

기존 파이프라인은 오디오를 스트리밍 음성-텍스트 모델로 처리하고, 전사본을 기계 번역 모델에 입력한 다음, 별도의 텍스트-음성 모델을 통해 번역을 합성합니다. 각 단계는 지연 시간을 추가하고 오류를 누적시킵니다. 제미나이 3.5 라이브 번역은 이러한 단계들을 하나의 오디오 모델로 통합합니다. 트레이드오프: 출력은 영구적인 오디오이며 편집 가능한 텍스트가 아닙니다. 한 번 말해진 단어는 발화 중간에 수정할 수 없습니다.

턴 기반이 아닌 연속 스트리밍

구글의 발표는 이 모델을 "품질 향상을 위해 컨텍스트를 기다리는 것과 화자와 동기화를 유지하기 위해 즉시 번역하는 것 사이의 트레이드오프를 균형 잡는" 모델로 설명합니다. 구글 번역의 이전 대화 모드와 같은 기존 소비자 제품들은 턴 기반이었습니다: 탭하고, 말하고, 시스템이 번역을 완료하고 출력할 때까지 기다린 다음, 상대방이 탭하는 방식이었습니다. 제미나이 3.5 라이브 번역은 소스 화자가 여전히 말하고 있는 동안 번역된 음성을 연속적으로 출력하며, 구글은 "몇 초"의 지연을 설명합니다.

운율 전달

이 모델은 소스 화자의 음성 특성(억양, 속도, 강조, 음조)을 번역된 오디오로 전달하도록 설계되었습니다. 이것이 출력이 로봇 같지 않고 자연스럽게 들리는 주요 기술적 이유입니다. 또한 구글의 모델 카드에서 공개한 음성 일관성 한계의 원인이기도 합니다(섹션 4).

개발자 인터페이스에서 각 세션은 16kHz 모노 16비트 PCM 오디오를 입력으로 사용하고 24kHz 모노 PCM 오디오를 출력으로 생성하며, 100밀리초 단위로 전송됩니다. 모든 생성된 오디오는 구글의 SynthID 워터마크를 포함합니다. 이는 파형에 짜여진 감지할 수 없는 서명으로, 다운스트림 시스템이 오디오를 기계 생성으로 식별할 수 있게 합니다.

오디오 파형과 언어 선택이 표시된 스트리밍 음성 번역 인터페이스를 보여주는 스마트폰

3. 3. 제미나이 3.5 라이브 번역의 강점

제미나이 3.5 라이브 번역을 경쟁 제품과 비교할 때 다섯 가지 제품 강점이 즉시 드러납니다.

자연스러운 번역 음성. 운율을 보존하는 음성은 일반적인 TTS 엔진을 통해 오디오를 출력하는 음성 번역 시스템에 비해 가장 명확한 장점입니다. 번역된 오디오가 단어 나열을 읽는 평면적인 내레이터처럼 들리는 음성 번역 앱을 사용해본 적이 있다면, 그 차이는 즉각적입니다. 제미나이 3.5 라이브 번역은 이 부분에서 실질적으로 우수하며, 그 차이는 첫 문장부터 들을 수 있습니다.

오디오 간 단순성. 음성 번역 애플리케이션 구축은 전통적으로 스트리밍 STT 모델(Whisper-large, 구글 클라우드 Speech-to-Text, Azure Speech), 번역 모델, TTS 엔진을 연결하고 각각의 부분 출력 의미론을 관리하는 것을 의미했습니다. 제미나이 3.5 라이브 번역은 이 체인을 하나의 API 호출로 대체하여 애플리케이션 코드와 실패 지점을 모두 단순화합니다.

대규모 자동 언어 감지. 70개 이상의 언어를 자동 감지하며, 사용자가 미리 언어 쌍을 설정할 필요가 없습니다. 구글의 포지셔닝은 화자들이 대화 중간에 언어를 바꾸는 다자간 회의와 같은 사용 사례를 강조합니다.

배포. 구글 번역 소비자 앱과 구글 미트에 직접 내장되어 있습니다. 최종 사용자에게는 설치 및 발견 비용이 거의 제로입니다. 이미 앱을 가지고 있기 때문입니다. 미트 고객의 경우, 번역이 이미 사용 중인 워크플로 내의 기능 토글로 제공됩니다.

워터마크된 출력. SynthID 워터마킹은 생성된 음성을 AI 생성으로 식별 가능하게 하여 다운스트림 규정 준수 사용 사례에 유용하며, AI 생성 콘텐츠를 추적해야 하는 규제 산업에서 유용합니다.

4. 4. 구글 자체 모델 카드가 인정하는 한계점

구글 딥마인드가 발표한 제미나이 3.5 오디오 모델 카드는 제미나이 3.5 라이브 번역의 구체적인 알려진 한계점을 문서화합니다. 카드를 직접 인용하면:

언어 감지

"언어 감지는 비원어민 억양, 유사한 언어, 또는 빠른 언어 전환에서 어려움을 겪을 수 있습니다." 실용적 의미: 화자가 강한 억양을 가지고 있거나, 소스 언어가 관련 언어와 가까우거나(포르투갈어 vs 스페인어, 노르웨이어 vs 스웨덴어), 대화가 언어를 빠르게 전환하는 경우, 감지기가 잘못된 소스 언어를 선택하고 그에 따라 번역할 수 있습니다.

다중 화자 세션에서의 음성 일관성

"음성이 일관되지 않을 수 있으며, 긴 정적 후에 음성이 바뀌거나, 성별이 바뀌거나, 빠른 다중 화자 세션 중에 하나의 음성에 고착될 수 있습니다." 이는 많은 사용 사례에서 실질적으로 가장 중요한 한계점입니다. 여러 화자가 빠르게 번갈아 말하는 회의에서, 모델은 모든 번역 출력을 하나의 음성으로 생성할 수 있어, 청취자가 대화를 따라가는 데 의존하는 화자 구분을 잃게 됩니다.

노이즈 필터링

"배경 소음을 필터링하도록 설계되었지만, 모든 배경 오디오가 무시되지는 않을 수 있습니다." 실제 환경에서는 일부 조건에서 여전히 소음이 새어 들어올 것입니다.

번역 모드 제약 (개발자 API)

구글의 개발자 문서를 인용한 출시 보도에 따르면, "번역 모드에서는 텍스트 입력이 지원되지 않으며" 모델이 "이 모드에서 도구 사용과 시스템 지시를 제거합니다." 개발자에게는 번역 API 호출이 제한된 인터페이스입니다. 텍스트를 보낼 수 없고, 더 넓은 제미나이 도구 생태계를 사용할 수 없으며, 시스템 프롬프트를 주입할 수 없습니다. 번역 입력, 번역 출력만 가능합니다.

5. 5. LiveLingo 2026 벤치마크의 독립적 측정

LiveLingo Research는 출시일(2026년 6월 9일)에 제미나이 3.5 라이브 번역을 구글 클라우드 STT v2 + Translation v3, Azure Speech Translation, Whisper-large + GPT-4o-mini의 원래 벤치마크에 사용된 동일한 프로토콜로 평가했습니다. 전체 부록은 livelingo.io/research/benchmark-2026#comprehension-gemini-live에 게시되어 있으며, 주요 수치는 다음과 같습니다.

이해도 정확성 종합: 5점 만점에 4.93점 (120개 발화, 4개 언어 쌍: en→es, en→zh-CN, en→ja, en→de). 이는 벤치마크의 4개 경쟁 시스템 중 가장 강한 결과입니다. 다음으로 가까운 점수는 4.77점(구글 클라우드 Translation v3)입니다.

첫 오디오 지연 시간: 중앙값 2,947ms (음성 시작부터 첫 번역 오디오까지, p10–p90: 2,859–3,104ms). 이는 약 3초의 일정한 말하기 지연으로, 구글의 "화자보다 몇 초 뒤처짐" 설명과 일치합니다.

출력은 번역된 음성만. API에는 스트리밍 텍스트 모드가 없고 화자별 구분도 없습니다. 텍스트 전사본은 음성 출력의 부가 정보로만 제공됩니다. 음성 출력은 출력된 후 수정할 수 없습니다.

코드 전환 오디오. 86초에 영어 거리 인터뷰로 전환되는 만다린어 뉴스 클립에서 LiveLingo 벤치마크는 모든 실행에서 번역 출력이 전환 지점에서 멈춘다는 것을 기록했습니다. 이미 출력 언어로 된 음성은 번역되거나 전사되지 않으므로, 콘텐츠의 마지막 34초(클립의 약 28%)는 오류 없이 청취자에게 조용히 사라집니다. OpenAI의 gpt-realtime-translate도 동일한 클립에서 동일한 동작을 보이며, OpenAI는 출력 언어 음성을 건너뛰는 것이 의도된 바라고 문서화하고 있습니다. 이는 혼합 언어 오디오에서 현재 음성-음성 번역기의 구조적 한계입니다.

늦게 해결되는 구문에서의 사실 역전. 중국어 비즈니스 연설 클립에서 15% 매출 증가를 설명하는 문장이 영어로는 매출을 15% 증가시키려는 목표로 렌더링되었습니다. 이는 소스 언어가 의미를 담는 요소(극성, 시간 참조, 주어)를 문장 후반까지 미룰 때 되돌릴 수 없는 문장 중간 오디오 커밋이 생성하는 오류 클래스입니다.

이는 구글 자체 수치가 아닌 독립적인 측정입니다. 방법론과 발화별 원시 데이터는 게시된 부록에 있습니다.

6. 6. 제미나이 3.5 라이브 번역 접근 방법

소비자 — 구글 번역 앱

안드로이드 또는 iOS에서 구글 번역 앱을 최신 버전으로 업데이트하세요. 라이브 번역 모드는 2026년 6월 9일부터 전 세계적으로 출시되고 있으며, 가용성은 해당 지역의 스토어 출시 일정에 따라 달라집니다. 안드로이드에서는 새로운 "청취 모드"를 통해 기기의 이어피스로 직접 번역된 음성을 들을 수 있습니다.

개발자 — 제미나이 라이브 API + 구글 AI 스튜디오

이 모델은 제미나이 라이브 API와 구글 AI 스튜디오를 통해 공개 프리뷰로 제공됩니다. 출시 보도에 따르면, 통합 제약이 구체적입니다: 오디오 입력만(번역 모드에서 텍스트 입력 없음), 도구 사용이나 시스템 지시 없음, 100ms 단위로 청크된 16kHz 모노 16비트 PCM 입력, 24kHz PCM 출력. 현재 할당량과 가격은 구글 AI 스튜디오를 참조하세요.

기업 — 구글 미트

제미나이 3.5 라이브 번역은 2026년 6월 9일 현재 선별된 구글 워크스페이스 고객을 위한 비공개 프리뷰 상태입니다. 활성화된 곳에서는 미트의 번역 지원을 5개 언어에서 70개 이상의 언어로 확장하고 단일 회의 내에서 2,000개 이상의 소스/대상 조합을 지원합니다. 가용성은 순차적이며 전체적이지 않습니다.

7. 7. 제미나이 3.5를 사용해야 할 때와 다른 도구가 더 적합한 때

제미나이 3.5 라이브 번역이 올바른 선택인 경우

번역된 텍스트가 아닌 번역된 음성을 원하는 경우. 자연스러운 음성 출력이 이 제품의 가장 큰 장점입니다.
이미 구글 번역 앱이나 구글 미트를 사용하고 있는 경우. 통합은 발견하고 사용하는 데 비용이 전혀 들지 않습니다.
대화가 일대일이거나 화자 간 정적이 있는 명확한 턴 테이킹이 있는 경우. 구글의 모델 카드에서 공개한 음성 일관성 한계는 이러한 맥락에서 더 약합니다.
각 단계에 대한 세밀한 제어보다 STT → MT → TTS 체인을 단일 API로 단순화하는 것이 더 중요한 개발자 애플리케이션을 구축하는 경우.
오디오 출력에서 화자 구분 없이, 스트리밍 텍스트 전사본 없이도 살 수 있는 경우.

다른 도구를 선호할 수 있는 경우

오디오와 함께 또는 대신 스트리밍 텍스트가 필요한 경우. 스트리밍 텍스트는 실시간 자막, 회의 번역, 접근성 시나리오에서 대부분의 프로덕션 인터페이스가 화면에 표시하는 것입니다. 제미나이 3.5 라이브 번역의 텍스트는 부가 정보로만 제공됩니다.
번역된 출력에서 화자별 구분이 필요한 경우. 모델 카드의 "빠른 다중 화자 세션 중에 하나의 음성에 고착될 수 있음" 공개는 회의에서 실제 위험을 만듭니다.
표현력보다 안정성이 더 중요한 대화를 번역하는 경우. 오디오 출력은 발화 중간에 수정할 수 없으므로, 늦게 해결되는 구문을 가진 언어(중국어의 문장 끝 극성, 일본어의 문장 끝 동사)에서 조기 커밋이 의미를 역전시킬 수 있습니다. 벤치마크 부록은 그러한 사례 하나를 문서화합니다.
번역된 전화 통화가 필요한 경우 — 회선에서 번역이 실행되는 PSTN 번호로 전화 걸기. 제미나이 라이브 API는 개발자를 위한 구성 요소이지 전화 통화 제공업체가 아닙니다.

솔직한 인정. 이 가이드를 게시하는 제품인 LiveLingo는 이러한 차원의 대부분에서 두 번째 열에 해당합니다: 스트리밍 텍스트 + 오디오 출력, 화자별 구분, 표시된 번역이 절대 철회되지 않는 단조 게이트 커밋, 번역된 발신 전화 통화. 그러나 LiveLingo의 오디오 출력은 호스트 플랫폼의 기본 텍스트-음성 엔진(Apple 기기에서 iOS 네이티브)을 사용하므로 제미나이 3.5 라이브 번역의 생성된 음성보다 덜 자연스럽게 들립니다. 이는 구글이 오늘 출시한 실제 장점입니다. livelingo.io/compare/google-translate에서 사양을 나란히 비교하거나 livelingo.io/research/benchmark-2026에서 측정된 벤치마크 수치를 확인하세요.

8. 8. 자주 묻는 질문

제미나이 3.5 라이브 번역이란 무엇인가요?

제미나이 3.5 라이브 번역은 구글이 2026년 6월 9일 출시한 스트리밍 음성 간 번역 모델입니다. 제미나이 3 Pro를 기반으로 구축되었으며, 화자의 억양, 속도, 음조를 보존하는 번역된 오디오를 생성하고, 70개 이상의 언어를 자동 감지합니다. 제미나이 라이브 API와 구글 AI 스튜디오를 통한 개발자 접근(공개 프리뷰), 안드로이드와 iOS의 구글 번역 앱을 통한 소비자 접근, 그리고 구글 미트를 통한 선별된 구글 워크스페이스 고객 접근(비공개 프리뷰)이 가능합니다.

제미나이 3.5 라이브 번역은 어떤 언어를 지원하나요?

70개 이상의 언어를 자동 감지합니다. 구글 미트에서는 구체적으로 이전 5개 언어 지원을 70개 이상의 언어로 확장하고 단일 회의 내에서 2,000개 이상의 소스/대상 조합을 지원합니다.

제미나이 3.5 라이브 번역 비용은 얼마인가요?

소비자의 경우 구글 번역 앱은 무료입니다. 제미나이 라이브 API와 구글 AI 스튜디오를 통한 개발자 접근은 구글의 표준 API 요금으로 가격이 책정됩니다. 현재 가격은 구글 AI 스튜디오에서 확인하세요. 구글 미트를 통한 기업 접근은 2026년 6월 9일 현재 선별된 구글 워크스페이스 고객의 비공개 프리뷰로 제한됩니다.

제미나이 3.5 라이브 번역은 여러 화자를 어떻게 처리하나요?

구글 딥마인드가 발표한 제미나이 3.5 오디오 모델 카드에 따르면: "음성이 일관되지 않을 수 있으며, 긴 정적 후에 음성이 바뀌거나, 성별이 바뀌거나, 빠른 다중 화자 세션 중에 하나의 음성에 고착될 수 있습니다." 실제로: 일대일 대화와 명확한 정적이 있는 턴 테이킹 토론은 잘 작동하지만, 빠른 다중 화자 시나리오는 문서화된 약점입니다. 번역된 오디오 출력에는 화자별 구분이 없습니다.

제미나이 3.5 라이브 번역이 텍스트를 출력하나요?

주요 출력은 번역된 음성입니다. 텍스트 전사본은 제공되지만 음성 출력의 부가 정보로만 제공됩니다. 스트리밍 텍스트 모드는 없으며, 번역 모드 API는 텍스트 입력을 받지 않습니다.

제미나이 3.5 라이브 번역의 측정된 지연 시간은 얼마인가요?

구글은 시스템이 "화자보다 몇 초 뒤처진다"고 설명합니다. LiveLingo Research가 출시일에 실시한 독립적인 측정에서는 120개 테스트 발화에서 중앙값 첫 오디오 지연 시간이 2,947ms(p10–p90: 2,859–3,104ms)로 기록되었습니다. 이는 약 3초의 일정한 말하기 지연입니다. 출처: livelingo.io/research/benchmark-2026.

제미나이 3.5 라이브 번역은 언제 출시되었나요?

구글은 2026년 6월 9일 제미나이 3.5 라이브 번역을 발표하고 출시를 시작했습니다. 제미나이 라이브 API와 구글 AI 스튜디오(개발자 공개 프리뷰), 안드로이드와 iOS의 구글 번역 앱(해당 날짜부터 전 세계 출시), 그리고 구글 미트(선별된 워크스페이스 고객을 위한 비공개 프리뷰)에서 제공됩니다.

대화 도중 언어가 바뀌어도 계속 작동하는 도구는 무엇인가요?

바로 이 지점에서 Gemini 3.5 Live Translate 같은 음성 대 음성 번역기에 구조적 사각지대가 있습니다. 벤치마크의 중국어-영어 코드 전환 클립에서, 원본 음성이 목표 언어로 넘어가는 순간 번역 출력이 멈추고 마지막 약 28%의 내용이 아무런 안내 없이 사라집니다. LiveLingo는 음성을 텍스트로, 다시 음성으로 처리하며 절대 다시 고쳐 쓰지 않는 텍스트 기록을 제공하므로, 언어가 섞인 음성도 사라지지 않고 그대로 전달되어 화면에 남습니다. 두 언어를 섞어 말하는 대화에서는 이것이 내용을 따라가느냐, 말한 것의 3분의 1을 놓치느냐의 차이입니다. 벤치마크를 참고하세요.

9. 9. 출처

Google. Fluid, natural voice translation with Gemini 3.5 Live Translate. Google blog, June 9, 2026. blog.google
Google DeepMind. Gemini 3.5 Audio (Live Translate) — Model Card. deepmind.google
MarkTechPost. Google Releases Gemini 3.5 Live Translate, a Streaming Speech-to-Speech Audio Model Covering 70+ Languages Across Meet, Translate, and the Live API, June 9, 2026. marktechpost.com
LiveLingo Research. Real-Time Voice Translation Benchmark 2026 — Gemini 3.5 Live Translate addendum, June 9, 2026. livelingo.io/research/benchmark-2026