На прошлой неделе любитель экспериментировал с новой моделью синтеза изображений Flux AI. Было обнаружено Они неожиданно хороши в предоставлении специально обученных версий шрифтов. Несмотря на то, что на протяжении десятилетий существовали более эффективные методы рендеринга компьютерных шрифтов, новая технология полезна для энтузиастов изображений ИИ, поскольку Flux способен отображать детализированную текстовую визуализацию, а пользователи теперь могут вставлять слова, созданные с помощью пользовательских шрифтов, непосредственно в генерируемые изображения ИИ. .
С 1980-х годов (и с 1970-х годов в ходе исследований) у нас была технология создания точных, плавных, нарисованных на компьютере линий произвольной формы, поэтому создание клонированного шрифта с помощью ИИ само по себе не является чем-то новым. Но новая технология означает, что вы можете увидеть появление определенного шрифта на изображениях, созданных искусственным интеллектом, например, в меню на классной доске в реальном ресторане или на распечатанной визитной карточке, которую держит робот-лис.
Вскоре после того, как модели фотомонтажа с использованием искусственного интеллекта стали популярными, как Stable Diffusion в 2022 году, некоторые люди начали ИнтересныйКак я могу включить свой продукт, предмет одежды, индивидуальность или стиль в изображение, созданное искусственным интеллектом? Одним из ответов, который появился, стала LoRA (адаптация низкого ранга), метод Было обнаружено В 2021 году была запущена базовая модель ИИ, которая позволяет пользователям дополнять знания о базовой модели ИИ с помощью специально обученных расширений тестов.
Эти модули LoRA, как их называют, позволяют моделям синтеза изображений создавать новые концепции, которые изначально не были обнаружены (или плохо представлены) в обучающих данных базовой модели. На практике энтузиасты синтеза изображений используют их для создания уникальных стилей (например, всего в… Меловое искусство) или темы (подробные изображения Человек-Паук(Например). Каждый LoRA должен быть специально обучен с использованием примеров, предоставленных пользователем.
До Flux большинство генераторов изображений AI не очень хорошо отображали точный текст внутри сцены. Если вы попросите Stable Diffusion 1.5 отобразить тег с надписью «cheese», он покажет вам ерунду. DALL-E 3 от OpenAI, выпущенный в прошлом году, стал первой крупной моделью, которая достаточно хорошо справлялась с обработкой текста. Flux по-прежнему время от времени допускает ошибки в словах и буквах, но это самая мощная модель искусственного интеллекта «текст в мире» (как вы ее называете) из всех, которые мы когда-либо видели.
Поскольку Flux — это открытая модель, доступная для загрузки и микроконверсии, в прошлом месяце обучение линии LoRA впервые могло иметь смысл. Это именно то, что Недавно обнаружен энтузиастом искусственного интеллекта по имени Вадим Феденко (который на момент публикации не ответил на запрос об интервью). «Я очень впечатлен тем, как все получилось», — написал Феденко в Поделиться на Reddit«Flux распознает, как выглядят буквы в определенном стиле/шрифте, что позволяет обучать Лораса использованию определенных шрифтов, стилей и т. д. Скоро я буду обучать их больше».
Для первой пробы Феденко выбрал игристый напиток Шрифт в стиле «Y2K» Получившаяся модель, напоминающая те, что были популярны в конце 1990-х — начале 2000-х годов, была опубликована на платформе Civitai 20 августа. Два дня спустя пользователь Civitai под ником «AggravatingScree7189» опубликовал второй шрифт LoRA, который воспроизводил шрифт, похожий на тот, что был в Киберпанк 2077 Видеоигра.
«Сценарий был настолько плохим, прежде чем мне пришло в голову, что вы можете это сделать». книги Пользователь Reddit назвал egg-benedryl, отвечая на пост Феденко о линии Y2K. Еще один пользователь Reddit книги«Я не знал, что журнал «Y2K» — фейк, пока не увеличил его масштаб».
Это преувеличено?
Это правда, что использование глубоко обученной нейронной сети для синтеза изображений для отображения простой линии на простом фоне, вероятно, является излишним. Вероятно, вы не захотите использовать этот метод для замены Adobe Illustrator при разработке документа.
«Звучит хорошо, но забавно, что мы заново изобретаем идею шрифтов с помощью файлов LoRA размером 300 МБ», книги Комментатор Reddit в теме о Киберпанк 2077 Шрифт.
Генеративный ИИ часто критикуют за его воздействие на окружающую среду, что является законной проблемой для крупных облачных центров обработки данных. Но мы обнаружили, что Flux может вставлять эти строки в сцены, созданные искусственным интеллектом, при локальном запуске на RTX 3060. Количественно (Уменьшенный размер) (Полную разработку можно запустить на RTX 3090). Это такое же потребление электроэнергии, как при игре в видеоигру на том же компьютере. То же самое касается создания LoRA:Constructor. Киберпанк 2077 Шрифт тренер LoRA за три часа на графическом процессоре 3090.
Существуют также этические проблемы, связанные с использованием генераторов изображений на базе искусственного интеллекта, например, то, как они обучаются на данных, собранных без согласия владельца контента. Хотя эта технология вызывает разногласия среди некоторых художников, большое сообщество людей использует ее каждый день. Поделитесь результатами онлайн Через платформы социальных сетей, такие как Reddit, что приводит к новым применениям этой технологии.
На момент написания этой статьи есть только две строки, посвященные Flux LoRA, но мы уже слышали о планах создать больше, когда пишем эти строки. Хотя эта технология все еще находится на ранних стадиях своего развития, она может стать необходимой, если в будущем синтез изображений с помощью ИИ получит более широкое распространение. Adobe со своими моделями синтеза изображений, вероятно, будет следить за этим.
More Stories
Nintendo запускает музыкальное приложение с темами из Марио и Зельды и, что более важно, канал Wii Shop.
Загрузки Call of Duty: Black Ops 6 позволяют максимально эффективно использовать Интернет
Интересные факты M4 Mac mini: изменения в дизайне, поддержка внешнего дисплея и многое другое