Видео в реальном времени может стать следующим скачком в технологии искусственного интеллекта

Ян Сансавера, инженер-программист нью-йоркского стартапа Runway AI, написал краткое описание того, что он хотел увидеть в видео. Книги «Тихая река в лесу».

Менее чем через две минуты тестовый интернет-сервис создал короткий видеоролик о спокойной реке в лесу. Бегущая речная вода, переливаясь на солнце, прорезала деревья и папоротники, поворачивала за угол и мягко плескалась о скалы.

Runway, которая планирует открыть свой сервис для небольшой группы тестировщиков на этой неделе, является одной из нескольких компаний, разрабатывающих технологию искусственного интеллекта, которая вскоре позволит людям создавать видеоролики, просто вводя несколько слов в поле на экране компьютера.

Они представляют собой следующий этап в отраслевой гонке — гонке, в которой участвуют такие гиганты, как Microsoft и Google, а также гораздо более мелкие стартапы — для создания новых типов систем искусственного интеллекта, которые, по мнению некоторых, могут стать следующим большим шагом в технологии, столь же важным, как веб-браузеры. или айфон.

Новые системы создания видео могут ускорить работу кинематографистов и других цифровых художников, став новым быстрым способом создания трудно обнаруживаемой дезинформации в Интернете, из-за чего трудно сказать, что реально в Интернете.

Эти системы являются примерами так называемого генеративного искусственного интеллекта, который может мгновенно генерировать текст, изображения и звуки. Другой пример — ChatGPT, онлайн-чат-бот, созданный стартапом OpenAI из Сан-Франциско, который в конце прошлого года ошеломил технологическую отрасль своими возможностями.

Google и Meta, материнская компания Facebook, В прошлом году компания представила свои первые системы видеогенерации.но они не поделились этим с общественностью, потому что были обеспокоены тем, что системы могут в конечном итоге использоваться для распространения дезинформации с их новообретенной скоростью и эффективностью.

Но генеральный директор Runway Кристобаль Валенсуэла сказал, что считает эту технологию слишком важной, чтобы держать ее в исследовательской лаборатории, несмотря на связанные с ней риски. «Это одна из самых впечатляющих технологий, которые мы создали за последние 100 лет», — сказал он. «Вам нужны люди, которые действительно используют это».

Конечно, в возможности редактировать фильмы и видео и управлять ими нет ничего нового. Кинематографисты занимаются этим уже более века. В последние годы исследователи и цифровые художники использовали различные технологии и программы искусственного интеллекта для создания и редактирования видео, которые часто называют поддельными видео.

READ Некоторые часы Google Pixel Watch разваливаются [Update] - Арс Техника

Но системы, подобные той, которую создала Runway, могли бы со временем заменить навыки редактирования одним нажатием кнопки.

Технология Runway позволяет создавать ролики с любым кратким описанием. Для начала просто напишите описание, как если бы вы сделали быструю заметку.

Лучше всего это работает, если сцена содержит какое-то действие, но не много действия, например, «Дождливый день в большом городе» или «Собака с мобильным телефоном в парке». Нажмите Enter, и система создаст видео через минуту или две.

Эта технология может воспроизводить распространенные изображения, например кошку, спящую на ковре. Или он может комбинировать разрозненные концепции для создания странных развлекательных видеороликов, как корова на вечеринке по случаю дня рождения.

Видео длятся всего четыре секунды, и если присмотреться, видео получается прерывистым и размытым. Иногда изображения странные, искаженные и тревожные. У системы есть способ совмещать животных, таких как собаки и кошки, с неодушевленными предметами, такими как мячи и мобильные телефоны. Но если выбрать правильное направление, он снимает видеоролики, показывающие, куда движется технология.

READ Часы Pixel действительно существуют, и поклонникам Fitbit они могут очень понравиться.

«На данный момент, если я увижу HD-видео, я, вероятно, поверю ему. Но это очень быстро изменится», — сказал Филип Изола, профессор Массачусетского технологического института, специализирующийся на искусственном интеллекте.

Как и другие генеративные технологии искусственного интеллекта, система Runway учится, анализируя числовые данные — в данном случае фотографии, видео и аннотации, описывающие, что эти изображения содержат. Исследователи уверены, что обучая этот тип технологии на все больших объемах данных, они смогут быстро улучшить и расширить свои навыки. Эксперты считают, что очень скоро они будут создавать профессионально выглядящие мини-фильмы с музыкой и диалогами.

Трудно сказать, что система сейчас создает. Это не картина. Это не мультфильм. Это набор множества пикселей, смешанных вместе для создания реалистичного видео. Компания планирует представить свою технологию с другими инструментами, которые, по ее мнению, ускорят работу профессиональных художников.

В течение последнего месяца социальные сети пестрили фотографиями Папы Франциска в белом пуховике Balenciaga — удивительно современном наряде для 86-летнего Папы. Но фотографии не были реальными. 31-летний строитель из Чикаго произвел настоящий фурор Использование популярного инструмента искусственного интеллекта под названием Midjourney.

Доктор Изола потратил годы на создание и тестирование технологий такого типа, сначала в качестве исследователя в Калифорнийском университете в Беркли и в OpenAI, а затем в качестве профессора в Массачусетском технологическом институте. Полностью поддельные фотографии Папы Франциска.

«Было время, когда люди публиковали глубокие фейки, и они не могли меня одурачить, потому что это было слишком странно или слишком нереалистично», — сказал он. «Теперь мы не можем принимать изображения, которые мы видим в Интернете, за чистую монету».

Midjourney — один из многих сервисов, которые могут создавать реалистичные неподвижные изображения из короткой подсказки. Другие приложения включают Stable Diffusion и DALL-E, технологию OpenAI, которая положила начало этой волне генераторов изображений, когда она была представлена год назад.

Midjourney полагается на нейронную сеть, которая обучается своим навыкам, анализируя огромные объемы данных. Он ищет закономерности, просматривая миллионы цифровых изображений, а также текстовые подписи, описывающие фотографируемые изображения.

READ NVDA Stock: команда Nvidia и Microsoft Azure по генеративному ИИ

Когда кто-то описывает образ системы, он создает список функций, которые могут быть у этого образа. Одной из особенностей может быть изгиб наверху уха собаки. Еще может быть край мобильного телефона. Затем вторая нейронная сеть, называемая диффузионной моделью, генерирует изображение и пиксели, необходимые для атрибутов. Наконец, он преобразует пиксели в связное изображение.

Такие компании, как Runway, в которой работает около 40 сотрудников и которая привлекла 95,5 млн долларов, используют эту технологию для создания движущихся изображений. Анализируя тысячи видеоклипов, их технология может научиться соединять вместе множество неподвижных изображений в единой согласованной манере.

«Видео — это просто серия кадров — неподвижных изображений, — которые объединены таким образом, что создается иллюзия движения, — сказал г-н Валенсуэла. «Хитрость заключается в том, чтобы обучить модель, которая понимает взаимосвязь и согласованность между каждой структурой».

Подобно ранним версиям таких инструментов, как DALL-E и Midjourney, эта техника иногда странным образом сочетает концепции и образы. Если заказать мишку, который играет в баскетбол, ему могут подарить своеобразную плюшевую игрушку-трансформер со светодиодным баскетбольным мячом. Если вы спросите собаку с мобильным телефоном в парке, она может дать вам щенка с мобильным телефоном с инопланетным человеческим телом.

Но эксперты считают, что они могут исправить недостатки, обучая свои системы на все большем количестве данных. Они считают, что технологии в конечном итоге сделают создание видео таким же простым, как написание предложения.

«В прежние времена, чтобы сделать что-то подобное удаленно, у вас должна была быть камера. У вас должен был быть реквизит. У вас должно было быть место. У вас должно было быть разрешение», — сказала Сьюзен Бонсер, автор и издатель в Пенсильвании. Стейт, который был первым воплощением технологии генеративного видео, сказал: «У вас должны были быть деньги». Вы можете просто сесть и представить это».

Kolmogorov Stepanov

«Энтузиаст социальных сетей. Пивной ботаник. Злой коммуникатор. Любитель поп-культуры. Склонен к приступам апатии».

Видео в реальном времени может стать следующим скачком в технологии искусственного интеллекта

Новое поколение чат-ботов

Sony закрывает серверы LittleBigPlanet 3 и Nuking Fan Creations

Что случилось со скандальной историей финального рейда на скины в Destiny 2?

Игровой контроллер Kishi Ultra от Razer обеспечивает сенсорное управление вашим телефоном, ПК или планшетом с USB-C

Tesla отзывает почти 4000 Cybertrucks 2024 модельного года

«Tortured Poets Oath» побил рекорд потокового вещания на Spotify

Ядро Плутона, вероятно, образовалось в результате древнего столкновения

Sony закрывает серверы LittleBigPlanet 3 и Nuking Fan Creations

Новое поколение чат-ботов

Добавить комментарий Отменить ответ

More Stories

Sony закрывает серверы LittleBigPlanet 3 и Nuking Fan Creations

Что случилось со скандальной историей финального рейда на скины в Destiny 2?

Игровой контроллер Kishi Ultra от Razer обеспечивает сенсорное управление вашим телефоном, ПК или планшетом с USB-C

You may have missed

Tesla отзывает почти 4000 Cybertrucks 2024 модельного года

«Tortured Poets Oath» побил рекорд потокового вещания на Spotify

Ядро Плутона, вероятно, образовалось в результате древнего столкновения

Sony закрывает серверы LittleBigPlanet 3 и Nuking Fan Creations