Инициатива Массачусетского технологического института, Гарварда и Северо-восточного университета «Поиск нейронов в стоге сена» использует спорадические исследования

Принято думать о нейронных сетях как об адаптивных «извлекателях признаков», которые обучаются путем постепенного улучшения соответствующих представлений на основе исходных исходных данных. Итак, возникает вопрос: какие свойства представлены и каким образом? Чтобы понять, как высокоуровневые интерпретируемые человеком функции описываются в нейронных активациях LLM, исследовательская группа из Массачусетского технологического института, Гарвардского университета (HU) и Северо-восточного университета (NEU) предлагает метод, называемый разреженным исследованием.

Обычно исследователи обучают базовый классификатор (зонд) внутренним активациям модели, чтобы предсказать входной признак, а затем исследуют сеть, чтобы увидеть, представляет ли он рассматриваемый признак и где. Предлагаемый метод разреженного скрининга исследует более 100 переменных для выявления соответствующих нейронов. Этот метод преодолевает ограничения предыдущих методов скрининга и проливает свет на сложную структуру LLM. Это ограничивает исследовательский классификатор использованием не более k нейронов в своих прогнозах, где k — переменная от 1 до 256.

Команда использует современные методы прогнозирования разреженной оптимизации, чтобы доказать предпочтение малого k проблемы выбора разреженных признаков меньше k и решить проблему путаницы ранжирования и точности классификации. Они используют дисперсию в качестве индуктивного смещения, чтобы гарантировать, что их зонды могут поддерживать надежную априорную простоту и идентифицировать ключевые нейроны детального исследования. Кроме того, этот метод может генерировать более надежный сигнал о том, явно ли представлен конкретный признак и используется ли он ниже по течению, потому что отсутствие емкости не позволяет его зондам запоминать паттерны корреляции, связанные с интересующими признаками.

🚀 Создавайте высококачественные обучающие наборы данных с помощью технологии Kili и решайте задачи машинного обучения NLP для разработки мощных приложений машинного обучения.

Исследовательская группа LLM использовала авторегрессионный преобразователь в своем эксперименте, сообщая результаты классификации после обучения зондов с различными значениями k. Из исследования они делают следующий вывод:

Нейроны LLM содержат множество интерпретируемых структур, и разреженное зондирование является эффективным способом их обнаружения (даже в состоянии наложения). Однако его следует использовать с осторожностью и проводить анализ, если необходимо сделать строгие выводы.
Когда многие нейроны в первом слое активируются для некоррелированных n-грамм и локальных паттернов, признаки кодируются как разреженные линейные группы полисемичных нейронов. Статистика веса и информация из игровых моделей также приводят нас к выводу, что первые 25% полностью связанных слоев широко используют наложение.
Хотя окончательные выводы о моносемантичности остаются методологически неуловимыми, моносемантические нейроны, особенно в средних слоях, кодируют контекстуальные и лингвистические свойства более высокого уровня (такие как is_python_code).
Хотя разница в представлении имеет тенденцию к увеличению по мере увеличения размера моделей, эта тенденция не сохраняется повсеместно; Некоторые функции появляются с помощью выделенных нейронов по мере увеличения размера модели, другие распадаются на более мелкие функции по мере увеличения размера модели, а многие другие либо не меняются, либо появляются случайным образом.

READ Шведские ученые утверждают, что это самый маленький в мире бокал для вина, напечатанный на 3D-принтере

Несколько преимуществ разреженного звучания

Потенциальный риск путаницы качества классификации и качества ранжирования при исследовании отдельных нейронов с помощью зондов дополнительно устраняется наличием зондов с оптимизацией обеспечения.
Кроме того, разреженные зонды стремятся иметь небольшую емкость памяти, поэтому меньше причин для беспокойства по поводу того, что зонд может самостоятельно изучить задачу.
Для расследования вам понадобится модерируемый набор данных. Однако, как только она будет построена, вы сможете использовать ее для интерпретации любой модели, что открывает двери для исследования таких вещей, как универсальность приобретенных цепей и гипотеза естественной абстракции.
Вместо того, чтобы полагаться на субъективные оценки, его можно использовать для изучения того, как различные архитектурные решения влияют на возникновение полисемии и суперпозиции.

Разрозненное расследование имеет свои пределы

Сильные выводы можно сделать только на основе изучения данных эксперимента с дополнительным вторичным исследованием конкретных нейронов.
Из-за чувствительности к деталям реализации, аномалиям, неверным характеристикам и вводящим в заблуждение корреляциям в наборе данных исследования исследование дает лишь ограниченное представление о причинно-следственных связях.
В частности, с точки зрения интерпретируемости, разреженные зонды не могут распознавать объекты, сгенерированные на нескольких слоях, или различать объекты в наложении и объекты, представленные как объединение нескольких отдельных, более тонких объектов.
Может потребоваться итеративное сокращение, чтобы выбрать все интересующие нейроны, если разреженное зондирование пропускает некоторые из-за избыточности в наборе данных анализа. Использование многосимвольных свойств требует специальной обработки, которая обычно реализуется с помощью агрегирования, что может еще больше ухудшить специфичность результата.

Используя революционную технику спорадического скрининга, наша работа выявляет множество понимаемых человеком и богатых структур в LLM. Ученые планируют создать всеобъемлющее хранилище наборов данных опросов, возможно, с помощью искусственного интеллекта, в котором будут записаны детали, относящиеся к предвзятости, справедливости, безопасности и принятию решений с высокими ставками. Они призывают других исследователей принять участие в изучении этой «амбициозной интерпретации» и утверждают, что экспериментальный подход, который напоминает естественные науки, может быть более продуктивным, чем экспериментальные эпизоды машинного обучения. Наличие широких и разнообразных контролируемых наборов данных позволит улучшить оценку следующего поколения неконтролируемых методов интерпретации, которые потребуются для того, чтобы идти в ногу с прогрессом ИИ, а также автоматизировать оценку новых моделей.

READ Мы одни? Поиски жизни на Марсе и в других местах Солнечной системы

сканировать бумага. Не забудьте присоединиться 26k+ML Подписка RedditИ Дискорд-каналИ И Информационный бюллетень по электронной почте, где мы делимся последними новостями об исследованиях ИИ, крутыми проектами в области ИИ и многим другим. Если у вас есть какие-либо вопросы относительно статьи выше или если мы что-то пропустили, напишите нам по адресу [email protected]

🚀 Ознакомьтесь с инструментами искусственного интеллекта 100 в клубе инструментов искусственного интеллекта.

Дханшри Шенвай (Dhanshree Shenwai) — инженер по компьютерным наукам с солидным опытом работы в финтех-компаниях, занимающихся финансами, картами, платежами и банковским делом, и проявляет большой интерес к приложениям искусственного интеллекта. Она увлечена изучением новых технологий и разработок в современном развивающемся мире, облегчающим жизнь каждого.

🔥 Получите конкурентное преимущество с помощью данных: полезная информация о рынке для мировых брендов, розничных продавцов, аналитиков и инвесторов. (спонсируется)

Serafina Soloveva

«Наркоман поп-культуры. Поклонник телевидения. Ниндзя алкоголика. Абсолютный фанат пива. Профессиональный знаток твиттера».

SpaceX успешно запустила группировку навигационных спутников для Евросоюза

Замечена пара массивных плазменных струй, вылетающих из гигантской черной дыры Черные дыры

Драматические изображения гигантской полнолуния и частичного лунного затмения

Что снижение ставок ФРС означает для рынка жилья: NPR

Туристка погибла, потеряв ногу в результате нападения акулы во время плавания у Канарских островов.

В 33 сезоне «Танцев со звездами» увеличилось количество зрителей

WNBA предоставляет «Портленду» возможность расширения, которое начнется в 2026 году.

Добавить комментарий Отменить ответ

More Stories