Люмьер от Google делает видео с искусственным интеллектом ближе к реальности, чем к нереальности

Новая модель искусственного интеллекта Google для создания видео Люмьер А используется Новая диффузионная модель получила название Space-Time-U-Net, или STUNet, который определяет, где находятся объекты в видео (пространство) и как они движутся и меняются при этом (время). Арс Техника Этот метод позволяет Люмьеру создавать видео за один процесс, а не склеивать вместе более мелкие стоп-кадры, отмечает этот метод.

Люмьер начинает с создания базового кадра из вектора. Затем он использует структуру STUNet, чтобы начать аппроксимировать, где объекты будут перемещаться в этом кадре, чтобы создать больше кадров, которые перетекают друг в друга, создавая видимость плавного движения. Люмьер также создает 80 кадров по сравнению с 25 кадрами в Stable Video Diffusion.

Признаюсь, я больше текстовый репортер, чем специалист по видео, но пресс-релиз Google, а также препринт научной статьи показывают, что инструменты создания и редактирования видео с помощью ИИ всего за несколько лет превратились из зловещей долины в почти реальные. . Он также устанавливает технологию Google на пространстве, уже занятом конкурентами, такими как Runway, Stable Video Diffusion или Meta's Emu. Runway, одна из первых платформ массового преобразования текста в видео, запустила Runway Gen-2 в марте прошлого года и начала предлагать более реалистичные видеоролики. В видеороликах с подиума также сложно передать действие.

Google любезно разместил клипы и подсказки на сайте Люмьера, что позволило мне разместить те же подсказки на Runway для сравнения. Вот результаты:

Да, некоторые из представленных клипов имеют индустриальный оттенок, особенно если присмотреться к текстуре кожи или если сцена более атмосферна. но Посмотрите на эту черепаху! Она двигается как черепаха в воде! Выглядит как настоящая черепаха! Я отправил вступительное видео Люмьера другу, который является профессиональным видеоредактором. Хотя она отметила, что «можно ясно сказать, что это не совсем реально», она подумала, что это впечатляет: если бы я не сказал ей, что это ИИ, она бы подумала, что это компьютерная графика. (Она также сказала: «Это лишило бы меня работы, не так ли?»)

READ Генеральный директор NVIDIA подтверждает, что графические процессоры GeForce RTX 40 следующего поколения будут представлены в конце сентября

Другие модели объединяют видеоклипы из ключевых кадров, сгенерированных там, где действительно произошло действие (например, рисунки в бумажной книге), в то время как STUNet позволяет Lumiere сосредоточиться на самом действии, основываясь на том, где сгенерированный контент должен находиться в момент времени, указанный в видео.

Google не является крупным игроком в категории преобразования текста в видео, но постепенно выпускает более продвинутые модели искусственного интеллекта и переходит в сторону мультимедиа. Его модель великого языка Близнецов в конечном итоге позволит Барду создавать изображения. Lumiere пока недоступен для тестирования, но он демонстрирует способность Google разработать видеоплатформу искусственного интеллекта, которая сопоставима — а возможно, и немного лучше — с общедоступными генераторами видео искусственного интеллекта, такими как Runway и Pika. И для справки: именно здесь пару лет назад Google был с искусственным видео.

Ролик Google Imagen 2022 года

Изображение: Google

Помимо создания преобразования текста в видео, Lumiere также позволит создавать преобразования изображения в видео, стилизованное создание, позволяющее пользователям создавать видео в определенном стиле, кинематографическую графику, которая анимирует только часть видео, и рисование для замаскируйте область видео, чтобы изменить цвет или стиль.

Однако в исследовании Google Lumiere отмечается, что «существует риск злоупотреблений с целью создания фальшивого или вредоносного контента с использованием нашей технологии, и мы считаем, что крайне важно разработать и внедрить инструменты для обнаружения предвзятости и случаев злонамеренного использования, чтобы обеспечить безопасный и справедливый опыт». .» Авторы статьи не объяснили, как этого можно достичь.

Kolmogorov Stepanov

«Энтузиаст социальных сетей. Пивной ботаник. Злой коммуникатор. Любитель поп-культуры. Склонен к приступам апатии».

Люмьер от Google делает видео с искусственным интеллектом ближе к реальности, чем к нереальности

Инсайдеры говорят, что изменения уровней Xbox Game Pass произойдут из-за Call of Duty

iPhone 17 Slim будет дороже iPhone 17 Pro Max

ChatGPT позволяет пользователям загружать файлы напрямую с Google Drive и OneDrive.

Клиент McDonald’s, Мейсон Прима, получил штраф за использование приложения во время заказа на автозаправке.

Опрос на звание лучшего исполнителя премии ACM Awards 2024: голосуйте за любимого

Новая солнечная технология превращает парниковые газы в ценное топливо

Чемпионат PGA LIVE: Скотти Шеффлер играет, несмотря на арест за «нападение на полицейского»

Добавить комментарий Отменить ответ

More Stories