Nvidia представила ИИ Fugatto, генерирующий музыку и звук по текстовым запросам

Компания Nvidia представила впечатляющую новую модель искусственного интеллекта под названием Fugatto (Foundational Generative Audio Transformer Opus 1), способную генерировать высококачественный звук, музыку и изменять голос на основе текстовых запросов.

Этот исследовательский проект объединяет в себе возможности нескольких отдельных моделей ИИ, позволяя синтезировать речь, добавлять звуковые эффекты к существующим аудиозаписям и создавать полностью оригинальные музыкальные композиции.

По словам Брайана Катандзаро, вице-президента Nvidia по прикладным исследованиям глубокого обучения, Fugatto является аналогом таких популярных генеративных моделей, как Stable Video Diffusion или Sora, но работает со звуком, а не с изображениями или видео.

Ключевой особенностью Fugatto является её способность к комбинированию обученных элементов и выполнению сложных, многоэтапных инструкций.

Несмотря на потенциал технологии, Nvidia пока не анонсировала её коммерческий запуск.

Ранее ITinfo сообщало, что стремление Apple создать рекордно тонкий iPhone 17 Air может привести к ряду компромиссов.