Введение
"Что вы думаете, то и видите". Человеческое восприятие формируется под влиянием предшествующих знаний и опыта, которые формируют сложную деятельность мозга, лежащую в основе нашего восприятия. Понимание этой деятельности и восстановление закодированной информации является ключевой задачей когнитивной нейронауки. Среди этих задач декодирование визуальной информации представляет особую сложность. Именно здесь на помощь приходит функциональная магнитно-резонансная томография (fMRI), которая позволяет косвенно измерить активность мозга и восстановить визуальную информацию, например, классы изображений. Недавние модели глубокого обучения сделали интригующим вопрос о том, сможем ли мы напрямую восстановить исходные визуальные стимулы по соответствующим данным fMRI, особенно с учетом биологических принципов.
Однако из-за отсутствия пар fMRI -изображений и полезных биологических рекомендаций декодированные изображения часто оказываются размытыми и семантически бессмысленными. Чтобы установить четкую и обобщающую связь между активностью мозга и визуальными стимулами, крайне важно изучить эффективные и биологически обоснованные представления для fMRI. Кроме того, индивидуальная изменчивость репрезентаций мозга делает эту проблему еще более сложной: люди имеют уникальные паттерны активации мозга даже при реакции на один и тот же визуальный стимул. Поэтому важно разработать мощные алгоритмы декодирования мозга, которые распознают общие для всей популяции особенности, несмотря на индивидуальные различия. Для решения этих задач предложенная система MinD-Vis использует самоконтролируемое обучение с предтекстовыми задачами в больших наборах данных для дистилляции модели с помощью знаний о контексте. В системе также используется Sparse-Coded Masked Brain Modeling (SC-MBM) - модель, разработанная под биологическим руководством для эффективного изучения особенностей мозга при декодировании зрения. Наконец, подход MinD-Vis показывает многообещающие результаты в декодировании верных зрительных стимулов из различных категорий, используя синтетические и реальные наборы данных fMRI.
2. Связанные работы
В традиционных методах декодирования fMRI часто используется непосредственно для обучения и декодирования, обычно полагаясь на предварительно обученные иерархические характеристики изображений VGG для восстановления исходного стимула. В качестве альтернативы, обучение без контроля на несопряженных fMRI и изображениях стало возможным благодаря реконфигурируемой конструкции автоэнкодера и распространилось на изображения из различных семантических категорий. Регрессионные модели могут быть применены для извлечения скрытых fMRI-представлений, которые затем используются для точной настройки предварительно обученных моделей bigGAN для более правдоподобного и семантически значимого декодирования. Возможности моделирования маскированных сигналов (MSM) были использованы в крупномасштабном самоконтролируемом обучении в контексте естественного языка и зрения, при этом MSM является обобщенным автокодировщиком, который восстанавливает исходные данные из оставшихся после маскировки. Из-за разной плотности информации для визуальных сигналов используется высокий коэффициент маскирования (75%), а для естественных языков - низкий (25%). Диффузионные модели - это новые генеративные модели, которые генерируют высококачественный контент, обычно определяемый двунаправленной цепью Маркова состояний, проходящих через прямой процесс диффузии, который добавляет шум к данным до их полного разрушения до изотропного гауссовского шума, и обратный процесс, который восстанавливает испорченные данные путем моделирования апостериорного распределения в каждом состоянии и получения выборки из исходного распределения данных. Обратная условная вероятность может быть выучена путем оптимизации вариационной нижней границы с использованием функций разрядки, обычно реализуемых в виде UNets.
3. Методология
3.1 Мотивация и общий обзор
В этом подразделе обсуждаются мотивы и соображения, лежащие в основе подхода MinD-Vis, применительно к анализу данных fMRI. FMRI измеряет изменения активности мозга в виде трехмерных вокселей с пространственной избыточностью. ROI, одномерное векторное представление усредненных данных fMRI, значительно меньше по размеру, чем изображения, и имеет потенциальное смещение области в зависимости от экспериментальных условий и настроек сканера, а также индивидуальных различий. Предлагаемый подход MinD-Vis состоит из двух последовательных этапов: Этап А, где fMRI-представления обучаются с помощью автоэнкодера с моделированием маскированного сигнала в качестве предтекстовой задачи, и Этап Б, где предварительно обученный fMRI-кодер интегрируется с LDM посредством перекрестного внимания и кондиционирования временных шагов для условного синтеза. Кодер настраивается совместно с головками перекрестного внимания в LDM с помощью парных аннотаций.
3.2 Стадия А: Sparse-Coded MBM
Активность в человеческом мозгу является сложным процессом, включающим взаимодействие 86 миллиардов нейронов в мозге. Изучение этой активности происходит с помощью функциональной магнитно-резонансной томографии, которая измеряет BOLD-сигналы, являющиеся косвенной мерой нейрональной активности мозга. Изучение этих сигналов происходит путем анализа функциональных сетей, состоящих из вокселей данных fMRI, которые имеют подразумеваемые корреляции в ответ на внешние стимулы.
В этой работе используется предварительное обучение с моделью, которая учится находить скрытые связи между вокселями и декодировать восстановленные данные даже при использовании большого количества маскированных вокселей для экономии вычислительных ресурсов. Эта модель основана на идее использования разреженного кодирования информации, которое увеличивает эффективность передачи информации и создает минимальную избыточность в мозге.
В то время как изучение активности мозга является сложным процессом, работа показывает, что использование концепций скрытых связей между вокселями может быть полезным для создания более эффективных и точных моделей для анализа активности мозга.
3.3 Стадия Б: Double-Conditioned LDM
Предложенный метод использует заранее обученную модель для синтеза изображений на основе разреженно закодированных данных fMRI. Энкодер fMRI преобразует данные fMRI в разреженно закодированные представления со свойством локальности. Модель LDM оперирует на скрытом пространстве изображения и учитывает разреженно закодированные данные fMRI для синтеза изображений.
Для обеспечения согласованности генерированных изображений, в методе интегрированы методы кросс-внимания и временного шага. Оптимизационная задача переформулирована с использованием двойного условия.
После предварительного обучения энкодера fMRI с помощью SCMBM он интегрируется со заранее обученной моделью LDM через двойное условие. Наборы данных, использованные для предварительного обучения, состоят из fMRI-данных из HCP и GOD. Наборы данных GOD используются для эвристики, в то время как BOLD5000 используется для валидации. Набор данных GOD состоит из 1250 различных изображений из 200 различных классов, из которых 1200 изображений используются для обучения и 50 изображений используются для тестирования. Набор данных BOLD5000 состоит из 5254 пар fMRI-изображение для 4916 различных изображений с использованием 113 изображений для тестирования, что является первым использованием набора данных BOLD5000 для декодирования fMRI-изображений.
4. Эксперименты
4.1 Наборы данных
В данном исследовании использовались три общедоступных датасета: Human Connectome Project (HCP) 1200 Subject Release, Generic Object Decoding Dataset (GOD) и Brain, Object, Landscape Dataset (BOLD5000). Для предварительного обучения использовались данные из HCP и GOD, объединив их, получили 136 000 сегментов fMRI из 340 часов сканирования fMRI. HCP содержит только данные fMRI, и GOD был использован для дообучения. BOLD5000 использовался в качестве датасета для валидации.
Модель предварительного обучения похожа на ViT-Large с 1D эмбеддером патчей. Применен размер патча 16, размерность эмбеддинга 1024, глубина энкодера 24. Разрешение изображений 256 × 256 с 250 PLMS шагами.
Итоги исследования опираются на лучшие результаты модели.
4.2 Мера оценки
Для оценки семантической правильности результатов использовалась задача классификации с n классами. Для этого были вычислены top-1 и top-5 точности классификации в n-1 случайно выбранных классах и правильном классе. Был использован предварительно обученный ImageNet1K классификатор для определения семантической правильности созданных изображений. Проверяется соответствия топ-k классификации n-выбранных классов между сгенерированным и исходным изображением.
Для оценки качества генерируемых изображений использовался метрика Frechet inception distance (FID), которая оценивает качество генерации изображений. В экспериментах FID был использован как точка отсчёта для оценки качества генерации.
5. Результаты
Основные результаты исследования были получены на датасете GOD, где классы не пересекались между тренировочным и тестовым наборами данных. Тренировка и тестирование проводились на одном и том же субъекте для уменьшения влияния индивидуальных различий.
Для сравнения с предыдущими исследованиями, было проведено сравнение результатов с Ozcelik, Gaziv и Beliy на Subject 3. Gaziv и Beliy. использовали более традиционный метод, который декодирует изображения с более высокой точностью пикселей, но менее правдоподобные и с меньшим количеством семантических деталей. Ozcelik et al., используя предварительно обученный GAN, генерировали более правдоподобные и семантически значимые изображения.
В итоге, проведенный эксперимент с 1000 пробами показал, что наш метод в тестовом наборе GOD показал результаты лучше чем Ozcelik et al. на 39% в 50-way top-1 точности и на 66% в 100-way top-1 точности. Также наш метод достиг успеха в 0.274 и 0.212 соответственно в соответствующих задачах. FID также показал хороший результат в 1.67 с лучшими образцами.
Как было отмечено на сгенерированных изображениях, наш метод генерировал более правдоподобные детали, например, изображения воды и волн, записи на боулинговых шарах, колесах карет и т.д., которые не были присутствующими в предыдущих изображениях. Кроме того, были наблюдены несоответствия цвета, но с сохранившимся цветовым отличием. Это можно объяснить тем, что обработка информации о цветовых категориях происходит в фронтальных долях мозга как когнитивный процесс, а визуальная кора только распознает различие в цветах.
5.1 Согласованность поколений
Метод был проверен на консистентность, декодируя одни и те же данные fMRI несколько раз с разными рандомными состояниями. Было выполнено 5 выборок разными рандомными состояниями в тестовом наборе данных для каждого fMRI. В 50-way и 100-way top1 задачах идентификации был достигнут средний уровень успеха в 0,2385 ± 0,030 и 0,1736 ± 0,029 соответственно, что статистически выше лучших результатов пробы Ozcelik на 21% и 35%. Что касается качества изображения, был достигнкт средний FID 2.22 ± 0.3 по пяти выборкам. Стандартные отклонения по 5 выборкам указывают на то, что сгенерированные изображения всегда будут относиться к одной и той же семантической категории.
В разделе SC-MBM Design было проведено сравнение различными важными параметрами. Отчетливые результаты были получены с использованием SC-MBM за пределами MIM на немаркированных данных. Чрезвычайно важно, что предварительное обучение SC-MBM тщательно подбиралось для каждого параметра.
Размер эмбеддинга патча был повышен с целью увеличения информационной ёмкости, однако при этом увеличивается число параметров, что увеличивает требования к использованию данных. Проверено несколько размеров эмбеддинга патча, и наилучшее соотношение точности и использования данных было достигнуто при использовании 1024 патчей, после чего точность постепенно уменьшалась.
6. Заключение
В ходе исследования было обнаружено, что качество восстановления изображений зависит от индивидуальных процессов мозга, в частности, от визуального восприятия. Существует связь между уровнем производительности и способностью обучаться и иерархической архитектурой при обработке информации в мозге. Данная связь может быть использована для более точного декодирования мозговой активности.
Для декодирования визуальных стимулов на основе небольшого количества настроенных данных была предложена двухэтапная схема MinD-Vis. На первом этапе, используя предварительное обучение с маскировкой моделирования на данных fMRI, команда ученых научилась создавать представления с повышенной обобщающей способностью. На втором этапе были использованы латентные диффузионные модели с двойной кондиционировкой для генерации правдоподобных изображений из полученных представлений.
MinD-Vis проверили на нескольких наборах данных и показали, что данное решение создает более правдоподобные изображения, которые семантически похожи на оригинальные стимулы, чем предыдущие методы. Это устанавливает новые стандарты в области декодирования мозговой активности.
Источник:
Zijiao Chen, Jiaxin Qing, Tiange Xiang, Wan Lin Yue, Juan Helen Zhou, "Seeing Beyond the Brain: Conditional Diffusion Model with Sparse Masked Modeling for Vision Decoding", 2022 г.
Retrived from: https://mind-vis.github.io/MinD-vis_low_res_Full.pdf
Comments