1 июня, 2025

Orsk.today

Будьте в курсе последних событий в России благодаря новостям Орска, эксклюзивным видеоматериалам, фотографиям и обновленным картам.

Люмьер от Google делает видео с искусственным интеллектом ближе к реальности, чем к нереальности

Люмьер от Google делает видео с искусственным интеллектом ближе к реальности, чем к нереальности

Новая модель искусственного интеллекта Google для создания видео Люмьер А используется Новая диффузионная модель получила название Space-Time-U-Net, или STUNet, который определяет, где находятся объекты в видео (пространство) и как они движутся и меняются при этом (время). Арс Техника Этот метод позволяет Люмьеру создавать видео за один процесс, а не склеивать вместе более мелкие стоп-кадры, отмечает этот метод.

Люмьер начинает с создания базового кадра из вектора. Затем он использует структуру STUNet, чтобы начать аппроксимировать, где объекты будут перемещаться в этом кадре, чтобы создать больше кадров, которые перетекают друг в друга, создавая видимость плавного движения. Люмьер также создает 80 кадров по сравнению с 25 кадрами в Stable Video Diffusion.

Признаюсь, я больше текстовый репортер, чем специалист по видео, но пресс-релиз Google, а также препринт научной статьи показывают, что инструменты создания и редактирования видео с помощью ИИ всего за несколько лет превратились из зловещей долины в почти реальные. . Он также устанавливает технологию Google на пространстве, уже занятом конкурентами, такими как Runway, Stable Video Diffusion или Meta's Emu. Runway, одна из первых платформ массового преобразования текста в видео, запустила Runway Gen-2 в марте прошлого года и начала предлагать более реалистичные видеоролики. В видеороликах с подиума также сложно передать действие.

Google любезно разместил клипы и подсказки на сайте Люмьера, что позволило мне разместить те же подсказки на Runway для сравнения. Вот результаты:

Да, некоторые из представленных клипов имеют индустриальный оттенок, особенно если присмотреться к текстуре кожи или если сцена более атмосферна. но Посмотрите на эту черепаху! Она двигается как черепаха в воде! Выглядит как настоящая черепаха! Я отправил вступительное видео Люмьера другу, который является профессиональным видеоредактором. Хотя она отметила, что «можно ясно сказать, что это не совсем реально», она подумала, что это впечатляет: если бы я не сказал ей, что это ИИ, она бы подумала, что это компьютерная графика. (Она также сказала: «Это лишило бы меня работы, не так ли?»)

READ  Apple открывает App Store для старых эмуляторов игр

Другие модели объединяют видеоклипы из ключевых кадров, сгенерированных там, где действительно произошло действие (например, рисунки в бумажной книге), в то время как STUNet позволяет Lumiere сосредоточиться на самом действии, основываясь на том, где сгенерированный контент должен находиться в момент времени, указанный в видео.

Google не является крупным игроком в категории преобразования текста в видео, но постепенно выпускает более продвинутые модели искусственного интеллекта и переходит в сторону мультимедиа. Его модель великого языка Близнецов в конечном итоге позволит Барду создавать изображения. Lumiere пока недоступен для тестирования, но он демонстрирует способность Google разработать видеоплатформу искусственного интеллекта, которая сопоставима — а возможно, и немного лучше — с общедоступными генераторами видео искусственного интеллекта, такими как Runway и Pika. И для справки: именно здесь пару лет назад Google был с искусственным видео.

Ролик Google Imagen 2022 года
Изображение: Google

Помимо создания преобразования текста в видео, Lumiere также позволит создавать преобразования изображения в видео, стилизованное создание, позволяющее пользователям создавать видео в определенном стиле, кинематографическую графику, которая анимирует только часть видео, и рисование для замаскируйте область видео, чтобы изменить цвет или стиль.

Однако в исследовании Google Lumiere отмечается, что «существует риск злоупотреблений с целью создания фальшивого или вредоносного контента с использованием нашей технологии, и мы считаем, что крайне важно разработать и внедрить инструменты для обнаружения предвзятости и случаев злонамеренного использования, чтобы обеспечить безопасный и справедливый опыт». .» Авторы статьи не объяснили, как этого можно достичь.