Как озвучить текст бесплатно в Google AI Studio: голоса, эмоции и диалоги
Что умеет новая озвучка Google AI Studio, о которой почти никто не говорит
Я давно слежу за тем, как нейросети генерируют голос. Перепробовала ElevenLabs, другие сервисы, Suno для музыки (кстати, про AI-музыку у меня была отдельная статья про каверы). Но когда Google обновил свою студию и добавил туда новую модель озвучки, я, конечно, полезла тестировать. И знаете, результат меня реально удивил. Голос звучит живо, с настоящими паузами, сменой интонаций. Можно даже задать шёпот или смех. И главное, это бесплатно.
Сегодня покажу, как пользоваться этим инструментом без кода, API-ключей, установки программ. Просто открываете браузер, заходите на сайт и начинаете делать.
Пример озвучки:
Что такое Google AI Studio и зачем туда идти за озвучкой?
Google AI Studio, если коротко, бесплатная веб-платформа от Google, где собраны их нейросетевые модели. Там можно общаться с Gemini, генерировать картинки, собирать мини-приложения без кода. А ещё, с апреля 2026 года, там появилась модель для озвучки текста: Gemini 3.1 Flash TTS Preview.
TTS (text-to-speech) переводится как “текст в речь”. Проще говоря, вы пишете текст, выбираете голос, нажимаете кнопку, и нейросеть превращает буквы в звук. Но Gemini 3.1 Flash TTS — это не просто “робот читает по бумажке”. Модель понимает контекст фразы и подстраивает интонацию. Можно вставлять прямо в текст команды в квадратных скобках (их называют аудиотегами): [whispers], [excited], [laughing], [slow], [pause]. И голос реально меняется. Кстати, на русском теги тоже понимает.
Важно сразу уточнить одну вещь, что Google пишет про 200+ expressive audio tags, но полного открытого списка всех тегов не публикует. Поэтому ниже я показываю практическую базу: самые полезные и реально применимые теги, плюс удачные комбинации. А в моём Телеграм-канале вы найдёте список из 65+ аудиотегов. Если будет запрос, то я добавлю больше тегов туда же :)
Мне больше всего зашла функция диалогов. Можно сделать разговор двух людей с разными голосами. Подкаст, сценка для ролика, озвучка для сторис, фрагмент аудиокниги. Раньше для такого нужны были платные сервисы или два диктора в студии.
Как начать работу: пошаговая инструкция
Открываете Google AI Studio в браузере. Авторизуйтесь через Google-аккаунт. Подписка не нужна, платить тоже не нужно.
Если в вашем регионе не работает сервис, то используйте VPN.
Справа на панели в настройках Run Settings нажмите на название модели и найдите вкладку “Audio”. Там в списке моделей выбираете Gemini 3.1 Flash TTS Preview. Модель появилась в апреле 2026, так что если вы давно не заглядывали в студию, она уже там.




Дальше перед вами откроется интерфейс, в котором есть готовые шаблоны.
Например, “The Energetic Co-Host. Podcast style conversation.” (энергичный соведущий, беседа в стиле подкаста), “The Ad Voiceover. A smooth, premium commercial voice.” (рекламная озвучка, мягкий премиальный голос), “The Training Guide. A clear and authoritative corporate trainer” (рекламная озвучка, мягкий премиальный голос). Шаблоны задают стиль подачи автоматически, это удобно для быстрого старта. Но если хотите контролировать каждую мелочь, лучше начать с чистого листа. Нажмите для этого на ссылку вверху всех шаблонов “Turn text into natural-sounding speech...” (Превратить текст в естественно звучащую речь...).
Как настроить сцену и написать диалог?
Когда вы выбрали модель, обратите внимание на поле Scene и Sample Context. Тут вы задаёте сцену и общий контекст: где происходит разговор, какая атмосфера, какое настроение. Можно писать как на английском, так и на русском — что-то простое, без сложных конструкций.
Потом переходите к самому тексту. У вас по умолчанию уже выбран первый спикер (Speaker 1 — название голоса). Впишите реплику в поле ниже, которую вы хотите использовать для первого спикера. Чтобы придать тексту эмоций, добавьте аудиотег в квадратных скобках перед самой речью. Далее создайте второго спикера, нажав на кнопку +Add speech block. Здесь вписываете следующую реплику. Для следующей реплики опять нажмите на +Add speech block. Каждая новая реплика чередует спикеров.
Вот как примерно это будет выглядеть:
Какие теги реально пригодятся в первую очередь
Если не хочется сразу тонуть в огромном списке, начните вот с этих:
[whispers] — шёпот.[excited] — взволнованно, энергично.[laughing] — смех.[slow] — медленно.[fast] — быстро.[pause] — пауза.[short pause] — короткая пауза.[emphasis] — ударение.
Доступно больше двухсот таких аудиотегов, но для обычной работы вам хватит и этой базы.
Кстати, помимо эмоций, есть теги темпа: [slow], [fast]. Есть теги для пауз: [pause], [short pause]. Их можно комбинировать. Только учтите, что два тега подряд без текста между ними ставить нельзя, модель может выдать ошибку.
Я в свой TG разместила список из 65+ таких аудиотегов. Перейти.
Как выбрать и настроить голоса?
Голосов в библиотеке около 30 штук. Они различаются по тембру, по возрасту, по характеру звучания. Нажимаете на иконку спикера, открывается панель настройки и выбора голоса. Можно прослушать каждый прямо там, не запуская полную генерацию.
Настройка голоса. Здесь доступны три настройки: Style — стиль, Pace — темп, Accent — акцент.
Список стилей
Vocal Smile — “улыбка в голосе”. Мягкое нёбо приподнято, чтобы голос звучал ярко, солнечно и явно располагающе.
Newscaster — диктор новостей. Профессиональная, уверенная, чёткая артикуляция в стандартном вещательном темпе.
Whisper — шёпот. Интимный, воздушный, близкий к микрофону эффект.
Empathetic — эмпатичный. Тёплый, понимающий, мягкий тон с нежными интонациями.
Promo/Hype — промо / хайп. Энергично, напористые согласные, растянутые гласные на словах с эмоцией.
Deadpan — сухая подача / безэмоционально. Ровная эмоция, минимальные изменения высоты голоса, сухая подача.
Список темпов речи
Natural — естественный. Естественный разговорный темп.
Rapid Fire — скороговоркой / быстрый темп. Быстро, энергично, без пустых пауз. Предложения слегка наслаиваются друг на друга.
The Drift — медленное течение / плавный темп. Медленно, текуче, без спешки. Длинные паузы для дыхания.
Staccato — стаккато / отрывисто. Короткие, обрезанные фразы с чёткими паузами между словами.
Список акцентов
Neutral — нейтральный. Остальные не будем рассматривать, так как эта настройка больше подходит для английского языка :)
Второго спикера настраиваете точно так же — нажатием на иконку Speaker 2 — название голоса.
Не беспокойтесь об остальных репликах. Голос спикера там автоматически заменится на выбранный вами в первой реплике.
Как запустить генерацию и скачать результат?
Когда текст готов и голоса выбраны, жмёте кнопку Run. Ждёте несколько секунд, в зависимости от длины текста. Озвучка начинает проигрываться автоматически.
Если результат не понравился, ничего страшного. Нажимаете Run ещё раз, и модель сгенерирует новый вариант. Каждый раз интонации будут чуть отличаться. Иногда третья попытка звучит намного лучше первой. Так что не стесняйтесь жать повторно, тут это нормальная практика.
Когда нашли вариант, который устраивает, жмёте на кнопку скачивания. Файл сохраняется в формате WAV (24 кГц, 16 бит, моно). Его можно потом конвертировать в MP3 любым бесплатным онлайн-конвертером или через Audacity.
Какие есть ограничения?
Бесплатный доступ работает с дневными лимитами. Google не публикует точные цифры для TTS-модели в AI Studio отдельно, но по моему опыту, десяток-другой генераций в день проходит спокойно. Для создания коротких озвучек, сценок или фрагментов подкаста этого вполне хватает.
Лимиты привязаны к Google-аккаунту. Если очень нужно больше, можно использовать второй (а может и третий) аккаунт :)
Ещё пара моментов. Модель поддерживает больше 70 языков, а вся озвучка, сгенерированная через Gemini 3.1 Flash TTS, автоматически маркируется технологией SynthID. Это невидимый водяной знак от Google, по которому можно определить, что звук создан нейросетью. На качество прослушивания это никак не влияет, но о его наличии полезно знать.
Для чего это можно использовать?
Я вижу несколько применений, которые реально полезны обычному человеку, а не только разработчикам. Собрала самое очевидное.
Озвучка коротких роликов. Если вы снимаете контент для соцсетей и не хотите записывать голос сами, этот инструмент закроет вопрос. Написали текст, выбрали подходящий голос, скачали файл, наложили на видео.
Подкасты и аудиоформаты. Два голоса, эмоции, паузы — всё есть. Для пилотного выпуска или экспериментального формата пойдёт.
Озвучка презентаций и туториалов. Когда нужен ровный, понятный голос без ваших “эээ” и “ммм”.
Аудиокниги и рассказы. Можно озвучить главу книги с разными голосами для персонажей. Для личного использования, подчёркиваю.
Реклама и промо. Короткий рекламный ролик с профессионально звучащим голосом, сделанный за пять минут.
Чем Gemini 3.1 Flash TTS отличается от ElevenLabs и других сервисов?
ElevenLabs остаётся лидером по качеству голоса (по рейтингу Artificial Analysis их модель стоит на первом месте по оценкам слушателей). Gemini 3.1 Flash TTS идёт следом, на втором месте по тому же рейтингу, с оценкой Elo 1211. Разрыв небольшой.
Но у Google есть серьёзное преимущество по цене. Через AI Studio можно работать бесплатно. У ElevenLabs бесплатный тариф ограничен жёстко, а платные планы начинаются от 5 долларов в месяц.
По функциональности у Google есть аудиотеги, которых у многих конкурентов нет. Плюс нативная поддержка диалогов на два голоса прямо из коробки, без танцев с бубном. Мне лично этого достаточно.
По итогу: для бесплатного сервиса качество прям впечатляющее. Для платных проектов с большим объёмом, возможно, ElevenLabs даст чуть более “отполированный” результат. Но для 90% задач обычного пользователя Google AI Studio хватит за глаза.
FAQ
Нужно ли платить за озвучку в Google AI Studio?
Нет. На момент написания статьи (май 2026) доступ к модели Gemini 3.1 Flash TTS Preview в Google AI Studio бесплатный. Есть дневные лимиты на количество генераций, но для обычного использования их достаточно.
Можно ли озвучить текст на русском языке?
Да, модель поддерживает более 70 языков, включая русский.
Как управлять эмоциями в озвучке?
Вставляйте аудиотеги в квадратных скобках прямо в текст: [excited], [whispers], [sad], [laughing], [slow]. Модель подстроит интонацию и манеру речи. Всего доступно более 200 таких тегов, но открытого полного списка Google не публикует.
Можно ли сделать диалог двух людей?
Да. Модель поддерживает до двух спикеров одновременно. Каждому можно назначить отдельный голос, стиль и настройки.
Что за водяной знак SynthID?
Это технология Google, которая встраивает в аудиофайл невидимую метку. По ней можно определить, что звук создан нейросетью. На слух метка не различима, качество записи не страдает.
Какой формат у скачанного файла?
WAV, 24 кГц, 16 бит, моно. Конвертировать в MP3 можно через любой бесплатный онлайн-конвертер.
Данные о рейтингах и ценах актуальны на май 2026. Рейтинг Artificial Analysis TTS основан на оценках живых слушателей. Google может менять условия бесплатного доступа без предупреждения.
📌 Если вам была полезна эта статья, подписывайтесь на мой Telegram-канал NeuroLena, где я разбираю нейросети простым языком.







