Принято думать о нейронных сетях как об адаптивных «извлекателях признаков», которые обучаются путем постепенного улучшения соответствующих представлений на основе исходных исходных данных. Итак, возникает вопрос: какие свойства представлены и каким образом? Чтобы понять, как высокоуровневые интерпретируемые человеком функции описываются в нейронных активациях LLM, исследовательская группа из Массачусетского технологического института, Гарвардского университета (HU) и Северо-восточного университета (NEU) предлагает метод, называемый разреженным исследованием.
Обычно исследователи обучают базовый классификатор (зонд) внутренним активациям модели, чтобы предсказать входной признак, а затем исследуют сеть, чтобы увидеть, представляет ли он рассматриваемый признак и где. Предлагаемый метод разреженного скрининга исследует более 100 переменных для выявления соответствующих нейронов. Этот метод преодолевает ограничения предыдущих методов скрининга и проливает свет на сложную структуру LLM. Это ограничивает исследовательский классификатор использованием не более k нейронов в своих прогнозах, где k — переменная от 1 до 256.
Команда использует современные методы прогнозирования разреженной оптимизации, чтобы доказать предпочтение малого k проблемы выбора разреженных признаков меньше k и решить проблему путаницы ранжирования и точности классификации. Они используют дисперсию в качестве индуктивного смещения, чтобы гарантировать, что их зонды могут поддерживать надежную априорную простоту и идентифицировать ключевые нейроны детального исследования. Кроме того, этот метод может генерировать более надежный сигнал о том, явно ли представлен конкретный признак и используется ли он ниже по течению, потому что отсутствие емкости не позволяет его зондам запоминать паттерны корреляции, связанные с интересующими признаками.
Исследовательская группа LLM использовала авторегрессионный преобразователь в своем эксперименте, сообщая результаты классификации после обучения зондов с различными значениями k. Из исследования они делают следующий вывод:
- Нейроны LLM содержат множество интерпретируемых структур, и разреженное зондирование является эффективным способом их обнаружения (даже в состоянии наложения). Однако его следует использовать с осторожностью и проводить анализ, если необходимо сделать строгие выводы.
- Когда многие нейроны в первом слое активируются для некоррелированных n-грамм и локальных паттернов, признаки кодируются как разреженные линейные группы полисемичных нейронов. Статистика веса и информация из игровых моделей также приводят нас к выводу, что первые 25% полностью связанных слоев широко используют наложение.
- Хотя окончательные выводы о моносемантичности остаются методологически неуловимыми, моносемантические нейроны, особенно в средних слоях, кодируют контекстуальные и лингвистические свойства более высокого уровня (такие как is_python_code).
- Хотя разница в представлении имеет тенденцию к увеличению по мере увеличения размера моделей, эта тенденция не сохраняется повсеместно; Некоторые функции появляются с помощью выделенных нейронов по мере увеличения размера модели, другие распадаются на более мелкие функции по мере увеличения размера модели, а многие другие либо не меняются, либо появляются случайным образом.
Несколько преимуществ разреженного звучания
- Потенциальный риск путаницы качества классификации и качества ранжирования при исследовании отдельных нейронов с помощью зондов дополнительно устраняется наличием зондов с оптимизацией обеспечения.
- Кроме того, разреженные зонды стремятся иметь небольшую емкость памяти, поэтому меньше причин для беспокойства по поводу того, что зонд может самостоятельно изучить задачу.
- Для расследования вам понадобится модерируемый набор данных. Однако, как только она будет построена, вы сможете использовать ее для интерпретации любой модели, что открывает двери для исследования таких вещей, как универсальность приобретенных цепей и гипотеза естественной абстракции.
- Вместо того, чтобы полагаться на субъективные оценки, его можно использовать для изучения того, как различные архитектурные решения влияют на возникновение полисемии и суперпозиции.
Разрозненное расследование имеет свои пределы
- Сильные выводы можно сделать только на основе изучения данных эксперимента с дополнительным вторичным исследованием конкретных нейронов.
- Из-за чувствительности к деталям реализации, аномалиям, неверным характеристикам и вводящим в заблуждение корреляциям в наборе данных исследования исследование дает лишь ограниченное представление о причинно-следственных связях.
- В частности, с точки зрения интерпретируемости, разреженные зонды не могут распознавать объекты, сгенерированные на нескольких слоях, или различать объекты в наложении и объекты, представленные как объединение нескольких отдельных, более тонких объектов.
- Может потребоваться итеративное сокращение, чтобы выбрать все интересующие нейроны, если разреженное зондирование пропускает некоторые из-за избыточности в наборе данных анализа. Использование многосимвольных свойств требует специальной обработки, которая обычно реализуется с помощью агрегирования, что может еще больше ухудшить специфичность результата.
Используя революционную технику спорадического скрининга, наша работа выявляет множество понимаемых человеком и богатых структур в LLM. Ученые планируют создать всеобъемлющее хранилище наборов данных опросов, возможно, с помощью искусственного интеллекта, в котором будут записаны детали, относящиеся к предвзятости, справедливости, безопасности и принятию решений с высокими ставками. Они призывают других исследователей принять участие в изучении этой «амбициозной интерпретации» и утверждают, что экспериментальный подход, который напоминает естественные науки, может быть более продуктивным, чем экспериментальные эпизоды машинного обучения. Наличие широких и разнообразных контролируемых наборов данных позволит улучшить оценку следующего поколения неконтролируемых методов интерпретации, которые потребуются для того, чтобы идти в ногу с прогрессом ИИ, а также автоматизировать оценку новых моделей.
сканировать бумага. Не забудьте присоединиться 26k+ML Подписка RedditИ Дискорд-каналИ И Информационный бюллетень по электронной почте, где мы делимся последними новостями об исследованиях ИИ, крутыми проектами в области ИИ и многим другим. Если у вас есть какие-либо вопросы относительно статьи выше или если мы что-то пропустили, напишите нам по адресу [email protected]
Дханшри Шенвай (Dhanshree Shenwai) — инженер по компьютерным наукам с солидным опытом работы в финтех-компаниях, занимающихся финансами, картами, платежами и банковским делом, и проявляет большой интерес к приложениям искусственного интеллекта. Она увлечена изучением новых технологий и разработок в современном развивающемся мире, облегчающим жизнь каждого.
More Stories
Пентагон обеспокоен новыми шпионскими спутниками Илона Маска
Сверхновая, впервые замеченная в 1181 году, выпустила светящиеся нити.
Астрономы ждут, когда звезда-зомби снова взойдет