Люмьер от Google делает видео с искусственным интеллектом ближе к реальности, чем к нереальности

Новая модель искусственного интеллекта Google для создания видео Люмьер А используется Новая диффузионная модель получила название Space-Time-U-Net, или STUNet, который определяет, где находятся объекты в видео (пространство) и как они движутся и меняются при этом (время). Арс Техника Этот метод позволяет Люмьеру создавать видео за один процесс, а не склеивать вместе более мелкие стоп-кадры, отмечает этот метод.

Люмьер начинает с создания базового кадра из вектора. Затем он использует структуру STUNet, чтобы начать аппроксимировать, где объекты будут перемещаться в этом кадре, чтобы создать больше кадров, которые перетекают друг в друга, создавая видимость плавного движения. Люмьер также создает 80 кадров по сравнению с 25 кадрами в Stable Video Diffusion.

Признаюсь, я больше текстовый репортер, чем специалист по видео, но пресс-релиз Google, а также препринт научной статьи показывают, что инструменты создания и редактирования видео с помощью ИИ всего за несколько лет превратились из зловещей долины в почти реальные. . Он также устанавливает технологию Google на пространстве, уже занятом конкурентами, такими как Runway, Stable Video Diffusion или Meta's Emu. Runway, одна из первых платформ массового преобразования текста в видео, запустила Runway Gen-2 в марте прошлого года и начала предлагать более реалистичные видеоролики. В видеороликах с подиума также сложно передать действие.

Google любезно разместил клипы и подсказки на сайте Люмьера, что позволило мне разместить те же подсказки на Runway для сравнения. Вот результаты:

Да, некоторые из представленных клипов имеют индустриальный оттенок, особенно если присмотреться к текстуре кожи или если сцена более атмосферна. но Посмотрите на эту черепаху! Она двигается как черепаха в воде! Выглядит как настоящая черепаха! Я отправил вступительное видео Люмьера другу, который является профессиональным видеоредактором. Хотя она отметила, что «можно ясно сказать, что это не совсем реально», она подумала, что это впечатляет: если бы я не сказал ей, что это ИИ, она бы подумала, что это компьютерная графика. (Она также сказала: «Это лишило бы меня работы, не так ли?»)

READ Apple открывает App Store для старых эмуляторов игр

Другие модели объединяют видеоклипы из ключевых кадров, сгенерированных там, где действительно произошло действие (например, рисунки в бумажной книге), в то время как STUNet позволяет Lumiere сосредоточиться на самом действии, основываясь на том, где сгенерированный контент должен находиться в момент времени, указанный в видео.

Google не является крупным игроком в категории преобразования текста в видео, но постепенно выпускает более продвинутые модели искусственного интеллекта и переходит в сторону мультимедиа. Его модель великого языка Близнецов в конечном итоге позволит Барду создавать изображения. Lumiere пока недоступен для тестирования, но он демонстрирует способность Google разработать видеоплатформу искусственного интеллекта, которая сопоставима — а возможно, и немного лучше — с общедоступными генераторами видео искусственного интеллекта, такими как Runway и Pika. И для справки: именно здесь пару лет назад Google был с искусственным видео.

Ролик Google Imagen 2022 года

Изображение: Google

Помимо создания преобразования текста в видео, Lumiere также позволит создавать преобразования изображения в видео, стилизованное создание, позволяющее пользователям создавать видео в определенном стиле, кинематографическую графику, которая анимирует только часть видео, и рисование для замаскируйте область видео, чтобы изменить цвет или стиль.

Однако в исследовании Google Lumiere отмечается, что «существует риск злоупотреблений с целью создания фальшивого или вредоносного контента с использованием нашей технологии, и мы считаем, что крайне важно разработать и внедрить инструменты для обнаружения предвзятости и случаев злонамеренного использования, чтобы обеспечить безопасный и справедливый опыт». .» Авторы статьи не объяснили, как этого можно достичь.

Kolmogorov Stepanov

«Social media enthusiast. Beer nerd. Angry communicator. Pop culture enthusiast. Prone to bouts of apathy.»

Люмьер от Google делает видео с искусственным интеллектом ближе к реальности, чем к нереальности

Nintendo и Pokémon Company официально подали в суд на разработчика Palworld за «множественные» нарушения патентных прав

Ошибка «Сообщения» в iOS 18 приводит к сбою приложения и потере данных, как это исправить

Решение Apple об обновлении определенно является плохой новостью для миллионов пользователей iPhone.

Что снижение ставок ФРС означает для рынка жилья: NPR

Туристка погибла, потеряв ногу в результате нападения акулы во время плавания у Канарских островов.

В 33 сезоне «Танцев со звездами» увеличилось количество зрителей

WNBA предоставляет «Портленду» возможность расширения, которое начнется в 2026 году.

Добавить комментарий Отменить ответ

More Stories