18 мая, 2024

Orsk.today

Будьте в курсе последних событий в России благодаря новостям Орска, эксклюзивным видеоматериалам, фотографиям и обновленным картам.

Люмьер от Google делает видео с искусственным интеллектом ближе к реальности, чем к нереальности

Люмьер от Google делает видео с искусственным интеллектом ближе к реальности, чем к нереальности

Новая модель искусственного интеллекта Google для создания видео Люмьер А используется Новая диффузионная модель получила название Space-Time-U-Net, или STUNet, который определяет, где находятся объекты в видео (пространство) и как они движутся и меняются при этом (время). Арс Техника Этот метод позволяет Люмьеру создавать видео за один процесс, а не склеивать вместе более мелкие стоп-кадры, отмечает этот метод.

Люмьер начинает с создания базового кадра из вектора. Затем он использует структуру STUNet, чтобы начать аппроксимировать, где объекты будут перемещаться в этом кадре, чтобы создать больше кадров, которые перетекают друг в друга, создавая видимость плавного движения. Люмьер также создает 80 кадров по сравнению с 25 кадрами в Stable Video Diffusion.

Признаюсь, я больше текстовый репортер, чем специалист по видео, но пресс-релиз Google, а также препринт научной статьи показывают, что инструменты создания и редактирования видео с помощью ИИ всего за несколько лет превратились из зловещей долины в почти реальные. . Он также устанавливает технологию Google на пространстве, уже занятом конкурентами, такими как Runway, Stable Video Diffusion или Meta's Emu. Runway, одна из первых платформ массового преобразования текста в видео, запустила Runway Gen-2 в марте прошлого года и начала предлагать более реалистичные видеоролики. В видеороликах с подиума также сложно передать действие.

Google любезно разместил клипы и подсказки на сайте Люмьера, что позволило мне разместить те же подсказки на Runway для сравнения. Вот результаты:

Да, некоторые из представленных клипов имеют индустриальный оттенок, особенно если присмотреться к текстуре кожи или если сцена более атмосферна. но Посмотрите на эту черепаху! Она двигается как черепаха в воде! Выглядит как настоящая черепаха! Я отправил вступительное видео Люмьера другу, который является профессиональным видеоредактором. Хотя она отметила, что «можно ясно сказать, что это не совсем реально», она подумала, что это впечатляет: если бы я не сказал ей, что это ИИ, она бы подумала, что это компьютерная графика. (Она также сказала: «Это лишило бы меня работы, не так ли?»)

READ  Генеральный директор NVIDIA подтверждает, что графические процессоры GeForce RTX 40 следующего поколения будут представлены в конце сентября

Другие модели объединяют видеоклипы из ключевых кадров, сгенерированных там, где действительно произошло действие (например, рисунки в бумажной книге), в то время как STUNet позволяет Lumiere сосредоточиться на самом действии, основываясь на том, где сгенерированный контент должен находиться в момент времени, указанный в видео.

Google не является крупным игроком в категории преобразования текста в видео, но постепенно выпускает более продвинутые модели искусственного интеллекта и переходит в сторону мультимедиа. Его модель великого языка Близнецов в конечном итоге позволит Барду создавать изображения. Lumiere пока недоступен для тестирования, но он демонстрирует способность Google разработать видеоплатформу искусственного интеллекта, которая сопоставима — а возможно, и немного лучше — с общедоступными генераторами видео искусственного интеллекта, такими как Runway и Pika. И для справки: именно здесь пару лет назад Google был с искусственным видео.

Ролик Google Imagen 2022 года
Изображение: Google

Помимо создания преобразования текста в видео, Lumiere также позволит создавать преобразования изображения в видео, стилизованное создание, позволяющее пользователям создавать видео в определенном стиле, кинематографическую графику, которая анимирует только часть видео, и рисование для замаскируйте область видео, чтобы изменить цвет или стиль.

Однако в исследовании Google Lumiere отмечается, что «существует риск злоупотреблений с целью создания фальшивого или вредоносного контента с использованием нашей технологии, и мы считаем, что крайне важно разработать и внедрить инструменты для обнаружения предвзятости и случаев злонамеренного использования, чтобы обеспечить безопасный и справедливый опыт». .» Авторы статьи не объяснили, как этого можно достичь.