Изображение: deepmind.google
Google провела серию анонсов новых инструментов на базе искусственного интеллекта. Главной новостью стал запуск Veo 3 — мощного видеогенератора, который теперь умеет не только создавать видео по текстовому описанию, но и добавлять реалистичное озвучивание, включая диалоги и звуки окружающей среды.
Также компания показала обновлённый генератор изображений Imagen 4, инструмент для создания фильмов Flow, и представила улучшения для существующих сервисов Veo 2 и Lyria 2.
Видео с голосом и эмоциями
Veo 3 — это новое поколение ИИ-видеогенератора от Google. В отличие от аналогов, например Sora от OpenAI, Veo способен добавлять в ролики синхронизированный звук: диалоги между персонажами, шумы, звуки животных и многое другое. Всё это происходит автоматически на основе текстового запроса пользователя.
Изображение: deepmind.google
Как сообщил вице-президент Google DeepMind Эли Коллинз, Veo 3 справляется с точной синхронизацией речи и движений губ, а также реалистично передаёт физику объектов в кадре. Благодаря этому созданные ролики выглядят не как анимация, а как полноценное живое видео.
На момент запуска Veo 3 доступен в США по подписке Ultra/ Этот тариф рассчитан на энтузиастов ИИ и профессиональных создателей контента. Также Veo 3 интегрирован в корпоративную платформу Vertex AI, что делает его удобным инструментом для бизнеса, медиа и креативных агентств.
Imagen 4 и Flow: новые грани творчества
Вместе с Veo 3 Google представил и Imagen 4 — новый генератор изображений. По словам компании, он позволяет создавать ещё более детализированные, фотореалистичные изображения с учётом стилистики и текстур, заданных пользователем.
Изображение: deepmind.google
Другой интересный инструмент — Flow, который помогает пользователям создавать кинематографичные ролики. Достаточно описать сцену, локацию, тип кадров и стиль — и ИИ соберёт видеоряд, похожий на фрагмент фильма. Получить доступ к Flow можно через такие сервисы Google, как Gemini, Whisk, Workspace и Vertex AI.
Видео и изображения — новый фронт в гонке ИИ
Новые запуски Google подтверждают тренд: визуальные и мультимедийные возможности становятся ключевым направлением в развитии генеративного ИИ. Как отметил гендиректор OpenAI Сэм Альтман, функции создания изображений в ChatGPT 4o оказались настолько востребованными, что компании пришлось временно ограничить их использование из-за перегрузки серверов.
Нейросети выходят за пределы человеческого знания
Google, в свою очередь, старается не отставать, хотя и не без ошибок. В прошлом году компания столкнулась с критикой после того, как Imagen 3 выдал некорректные изображения на исторические темы. Тогда сооснователь Google Сергей Брин признал, что причина была в недостаточном тестировании.
Обновления для старых инструментов
Помимо новых продуктов, Google обновил и уже существующие сервисы. Veo 2 теперь умеет добавлять и удалять объекты из видео с помощью обычного текстового запроса — например, «убери машину с дороги» или «добавь собаку на лужайку». Это делает редактирование видео проще, чем когда-либо.
Также улучшен музыкальный ИИ-генератор Lyria 2. Теперь он доступен авторам контента в YouTube Shorts и бизнес-клиентам через Vertex AI. Lyria позволяет создавать оригинальные музыкальные треки на основе текстовых описаний и заданного настроения Иван Вахмянин: ИИ-помощник Visiology готов конкурировать с любыми решениями в мире Как ИИ откроет новую эру электронной торговли Как осуществлять международные денежные переводы в 2025 году?
Источник: CNBC