Модели искусственного интеллекта уже много лет могут смотреть на изображения и сообщать вам, что они видят внутри изображения, но с весенним обновлением OpenAI вывела ситуацию на новый уровень.
С введением GPT-4o в ChatGPT — даже без функций аудио и видео — OpenAI представила одну из лучших моделей машинного зрения, выпущенных на сегодняшний день.
Его успех отчасти обусловлен тем, что он мультимедийный, с более глубоким пониманием изображений, видео, аудио и текста. Он может анализировать изображения, речь, видео и текст, тогда как другие формы сначала преобразуются в текст.
Чтобы проверить его способности, я дал ему серию картинок и попросил описать, что он видит. Чем точнее модель. Часто модели машинного зрения AI, в том числе GPT-4, пропускают один или два объекта или получают неправильное описание.
Проверка зрения GPT-4o
В каждом тесте ChatGPT-4o отображалось изображение и подсказка «Что это?» Без какого-либо контекста и дополнительной информации. Это ближе к тому, как люди могут использовать эту возможность в реальном мире и как я недавно использовал ее на мероприятии в Париже.
Цель состоит в том, чтобы увидеть, насколько хорошо анализируется изображение. Я каждый раз спрашивал, может ли он определить, было ли изображение создано ИИ. Все они созданы с использованием идеограммы из описания, созданного Клодом 3, то есть полностью искусственным интеллектом.
После первых нескольких фотографий в разговоре он начал спонтанно говорить мне, считает ли он, что фотография была создана искусственным интеллектом или нет, без моего запроса.
Я начал с настольного приложения ChatGPT, но оно перестало отвечать, поэтому я перешел в Интернет, и все заработало нормально.
1. Распознавание объектов
Для этого первого изображения я создал изображение красной керамической кружки, наполненной горячим кофе. Его положили на тарелку на деревянный стол в кафе, но кафе было неразличимо. Идея состоит в том, чтобы увидеть, как GPT-4o интерпретирует фон и сценарий.
GPT-4o написал: «На этом изображении изображена дымящаяся чашка кофе в красной чашке с блюдцем, стоящей на деревенском деревянном столе. Фон размыт, изображая уютную внутреннюю обстановку, где люди сидят и разговаривают в чем-то похожем на пещеру. как в кафе или уникальный интерьер с каменными стенами». Акцент делается на чашке кофе, подчеркивая пар, поднимающийся от горячего напитка.
Это настолько точно и описательно, насколько это возможно. Даже изображение сцены выходит за рамки простого описания. В шутку я спросил его: «Опишите мысли человека, сидящего за столом с этим готовым кофе».
Она ответила довольно описательным обзором, но эта фраза выделялась: «Этот кофе — больше, чем просто напиток; Это ритуал, заветный момент уединения и созерцания среди суеты повседневной жизни.
2. Оптическое распознавание символов (OCR)
Оптическое распознавание символов (OCR) — это технология, такая же старая, как компьютеры, поэтому она должна быть тривиальной для любой модели зрения, даже смартфоны делают это на устройстве. Я дал ей простую фотографию, на которой крупным планом изображена старая деревянная табличка с надписью «Добро пожаловать в Оквилл», написанной от руки в винтажном стиле. Я хочу больше, чем просто текст от ИИ.
ГПТ-4о доставлен; Надпись: «На этой фотографии изображена винтажная вывеска с надписью «Добро пожаловать в Оквилл». Вывеска выглядит обветренной, со старой деревенской отделкой, что указывает на то, что она некоторое время подвергалась воздействию стихии. Текст выделен жирным белым шрифтом. на красном фоне, с некоторыми признаками износа, что придает ему ностальгический шарм. Знак частично окружен зеленью, что позволяет предположить, что он мог быть установлен снаружи, возможно, у въезда в город или поселок под названием Оквилл.
Текст не только читался правильно, но и предлагал более подробную информацию о местонахождении, указывая возможный город или поселение и выявляя детали самого знака.
3. Распознавание лиц
Это спорное использование технологии искусственного интеллекта, которое в некоторой степени запрещено в Европейском Союзе. Но насколько хорошо GPT-4o может описать лицо? Изображение представляло собой созданное искусственным интеллектом изображение женщины лет 40 с темными волосами и теплыми карими глазами. У нее была дружелюбная улыбка.
GPT-4o описал это следующим образом: «Это изображение крупным планом улыбающейся женщины с темными вьющимися волосами. Основное внимание уделяется ее хорошо освещенному лицу, на котором видны детали текстуры кожи и черт лица. дружелюбное выражение лица, и ее глаза смотрят прямо в камеру. Фон размыт, «фокусируясь на теме».
Мне хотелось немного большего, в том числе и в определенном возрасте. Я спросил ее: «Сколько лет этому человеку и каково ее эмоциональное состояние?» Она ответила, что ей около 30-40 лет и она находится в позитивном настроении, пояснив: «Общее впечатление такое, что она находится в хорошем эмоциональном состоянии и, вероятно, чувствует себя хорошо и комфортно».
4. Раскрытие чувств
Далее я хотел посмотреть, насколько хорошо GPT-4o справится с изображением старика с грустным выражением лица. Он собирается это запечатлеть или просто описать сцену? Помните, что единственной записью было «что это» и изображение.
GPT-4o показал себя хорошо. На фотографии было написано: «На этой фотографии изображен пожилой мужчина, сидящий на скамейке на открытом воздухе, скорее всего, в парке. Освещение указывает на то, что фотография была сделана в золотой час, и мягкий солнечный свет подчеркивал его лицо. задумчивый, с легким намеком на меланхоличность или созерцательность. Он одет в рубашку с воротником и куртку, фон размыт, что фокусирует внимание на мужчине, создавая при этом приятную, естественную обстановку.
Модель ИИ сделала именно то, на что я надеялся: описала сцену и высказала предположения о том, что мужчина мог чувствовать в этот момент.
5. Поймите сцену
Насколько хорошо GPT-4o может описывать сцену по изображению и идентифицировать элементы внутри сцены? Это полезный навык, поскольку модели ИИ все чаще используются для описания реального мира. Это одна из основных функций нового аудиорежима ChatGPT.
«На этой фотографии изображен оживленный фермерский рынок под открытым небом в солнечный день», — сообщает GPT-4o. «Под палатками установлены различные киоски, на которых представлено множество свежих продуктов, включая фрукты, овощи и другие товары. Люди бродят по рынку. просмотр, покупки и общение с продавцами». Рынок расположен в красивой, усаженной деревьями местности, на фоне зеленой листвы. Атмосфера здесь живая и дружелюбная, с упором на местные и свежие продукты.
Нечего сказать. Он был точен в описании картины и ситуации. Вы предоставили больше деталей, чем я ожидал, и выделили некоторые товары, выставленные на продажу.
6. Оценка качества изображения
Я попросил Ideogram создать четыре почти одинаковых изображения в сетке, но с разным разрешением или уровнем композиции. Я хотел посмотреть, как это опишет GPT-4o. Он может обрабатывать базовые изображения, но как насчет четырех из них, каждое из которых немного отличается?
«Изображение представляет собой коллекцию из четырех пейзажных фотографий, расположенных в сетке, каждая из которых демонстрирует потрясающий вид на холмы, покрытые зеленой травой и полевыми цветами, под облачным небом», — пишет GPT-4o. Все идет нормально.
Далее он продолжает: «На верхнем левом фото показано нежно-розово-голубое градиентное небо, напоминающее рассвет или сумерки, с холмами, залитыми теплым золотым светом, подчеркивающим яркую зеленую траву и желтые и белые цветы. На верхнем правом фото показана аналогичная сцена, но. в приглушенных тонах, предполагающих раннее утро или поздний вечер. Левое нижнее изображение имеет более прохладные цвета и более чистое голубое небо, что предполагает полдень с более мягким освещением. Нижнее правое изображение более теплое и насыщенное, с розовым оттенком неба. свет заката Теплый Эти различия в освещении и цветовых тонах иллюстрируют, как разное время суток и фотографические техники могут влиять на настроение и внешний вид одной и той же природной сцены.
Хотя она и не понимала предназначения сетки из четырех изображений — сравнения композиции — она смогла описать каждое из них по отдельности, что было впечатляюще. На самом деле она провела собственное сравнение фотографий.
7. Обнаружение нескольких объектов
Наконец, есть важный тест на то, будет ли модель полезна в качестве инструмента обеспечения доступности — насколько хорошо она обнаруживает объекты в многолюдной сцене. Та же претензия, что и у других. На фото захламленный письменный стол, и я ожидаю, что из него вытащу хотя бы одну мелочь.
GPT-4o написал: «На фотографии показано современное, организованное офисное рабочее пространство с видом на город, видимым через большие окна на заднем плане. На столе аккуратно расставлено множество предметов, обычно встречающихся в продуктивной рабочей среде, включая ноутбук в центральном офисе. Металлическая настольная лампа и чашка кофе создают непринужденную, но сосредоточенную атмосферу. Разбросанные блокноты и бумаги предполагают активную работу и ведение заметок, а небольшое растение в горшке добавляет нотку зелени. Фотография двух людей в рамке потенциально создает индивидуальный подход. служит ресурсом для мотивации. Рабочее пространство наполнено канцелярскими принадлежностями, такими как ручки, карандаши и органайзеры, что обеспечивает функциональность. Городской пейзаж с современными высотными зданиями создает динамичную и вдохновляющую среду.
Это сработало. Я решил продолжить и попросить его назвать мне цвет горшка с растением, и это сразу сработало. Поэтому я попросил его найти на фотографии мои очки, и он правильно сказал: «Твои очки лежат на столе справа от ноутбука, сидят на блокноте сверху».
краткое содержание
Каждая модель видения, которую я использовал в прошлом, допускала по крайней мере одну ошибку, обычно серьезную, например, неверную идентификацию объекта или неподбор цвета или бренда.
GPT-4o получает все эти баллы. Переход к истинной мультимодальности изменил правила игры для OpenAI.
Это также демонстрирует потенциальную ценность умных очков как истинного будущего взаимодействия с данными. Забудьте о смартфонах, давайте воспользуемся зрением, чтобы объединить реальное и цифровое.
More Stories
Nintendo запускает музыкальное приложение с темами из Марио и Зельды и, что более важно, канал Wii Shop.
Загрузки Call of Duty: Black Ops 6 позволяют максимально эффективно использовать Интернет
Интересные факты M4 Mac mini: изменения в дизайне, поддержка внешнего дисплея и многое другое