본문 바로가기
Study/paper

[BCI/논문/리뷰/Nature Neuroscience] Semantic reconstruction of continuous language from non-invasive brain recordings

by favorcat 2024. 1. 16.
반응형

Semantic reconstruction of continuous language from non-invasive brain recordings

2023, Nature Neuroscience

https://www.nature.com/articles/s41593-023-01304-9


Abstract

  • fMRI로 기록된 뇌 반응에서 연속적인 언어를 재구성할 수 있는 비침습적 디코더에 대한 소개
  • perceived speech, imagined speech, perceived movie, 등 다양한 인지 과정을 정확하게 표현하는 단어 시퀀스를 생성
  • 대뇌 피질의 여러 영역에서 테스트한 결과, 여러 영역의 언어를 디코딩할 수 있는 것으로 나타남
  • mental privacy: 훈련과 적용 모두 피험자의 협조가 필요하며, 사용자의 동의 없이는 BCI를 사용할 수 없었음

Goal

Multi-head Self-attention GPT-1 모델을 사용해 perceived 및 imagined speech를 할 때, 발현되는 뇌 신호로부터 정보를 재구성


Motivation

  • 기존의 BCI는 특정 의료 분야로 침습적 방법에 의존하고 있었습니다.
    하지만, 침습적인 특징으로 수술과 관련된 위험과 복잡성으로 인해 광범위하게 사용하기에 어려움이 존재합니다.
  • 이전의 비침습적 언어는 디코더의 작은 단어나 구문으로 제한되어 있어 복잡한 언어의 처리 및 이해와 관련된 복잡한 신경 패턴을 포착할 수 없었습니다.

Contribution

  • fMRI로 기록된 피질 의미 표현에서 연속적인 언어를 재구성할 수 있는 비침습적인 디코더 개발
  • 여러 대뇌 피질 영역에서 분리된 언어 디코딩

Data

  • 7명의 정상인 피험자
  • fMRI 64채널
  • 실험군이 없어서 블라인드 테스트 진행 안함

Data availability

Code availability

 

GitHub - HuthLab/semantic-decoding

Contribute to HuthLab/semantic-decoding development by creating an account on GitHub.

github.com

Model test dataset

  • Perceived speech
    • 5-15분 분량의 이야기를 들음 (The Moth Radio Hour, Modern Love and The Anthropocene Reviewed)
    • 자극 전 후에 10초의 무음 버퍼
  • Imagined speech
    • 1분 분량의 이야기 상상 (모델 훈련에서 나온 5개의 Modern Love 중에서 1분 분량만)
    • 피험자들은 각 세그먼트 ID(‘alpha’, ‘bravo’, ‘charlie’, ‘delta’ and ‘echo’) 학습
    • 각 ID에 대한 cue를 듣고 기억에서 해당 세그먼트를 말하는 것을 상상
    • 각 이야기 세그먼트는 14분 동안의 단일 fMRI에서 2번 시행
    • 각 cue 후의 10초의 준비 시간
    • 각 세그먼트 후 10초의 휴식 시간
  • Perceived movie
    • 4-6분 분량의 단편 애니메이션 영화 클립 4편 시청 (‘La Luna’ (Pixar Animation Studios), ‘Presto’ (Pixar Animation Studios), ‘Partly Cloudy’ (Pixar Animation Studios) and ‘Sintel’ (Blender Foundation))
    • 소리가 거의 없는 무성 영화
    • 피험자가 소리를 내지 않고서 fMRI 스캔
    • 영상 전 후에 10초 동안 검은색 화면 버퍼 표시
  • Multi-speaker
    • 여성, 남성 화자가 들려주는 두 가지 이야기(The Moth Radio Hour)를 겹쳐서 구성한 6분짜리 자극 2번 시행
      • 두 이야기의 음성 파형을 모노로 변환해 오버레이
    • 여기서 사용한 이야기는 모델 train에서 제외
    • 한 번은 여성 화자에 집중, 다른 한 번은 남성 화자에 집중
    • 자극 전 후에 10초의 무음 버퍼
  • Decoder resistance
    • 80초 분량의 4가지 세그먼트 중 하나를 재생
    • 세그먼트가 시작되기 전, 피험자에게 4가지 인지 task(‘listen’, ‘count’, ‘name’ and ‘tell’) 중 하나를 수행하라는 신호
      • listen: 수동적으로 이야기의 부분을 듣기
      • count: 머릿속으로 7까지 세기
      • name: 머릿속으로 동물의 이름을 부르고 상상
      • tell: 머릿속으로 다양한 이야기를 말하기
    • 모든 cue에서 말하거나 다른 동작을 하지 않음
    • 과정
      1. 각 task가 일부 세그먼트에서 가장 먼저 cue를 받도록 하고
      2. 각 task가 모든 세그먼트에서 정확히 한 번씩 cue를 받도록 균형을 맞춰서 총 16번 진행
    • 8 trial로 구성된 14분짜리 fMRI 스캔을 2번 시행
    • 각 trial 후 10초의 준비 시간과 10초의 휴식 시간

Methods

Language model

  • 단어 시퀀스에 대한 사전 확률 분포 추정
  • GPT-1 모델에서 멀티헤드 셀프어텐션을 가진 12개의 레이어를 사용했습니다.
  • 레이어 중에서 중간에 있는 9번째 레이어를 사용해 각 단어와 시간 쌍에 대한 단어 시퀀스를 사용해 의미론적 특징을 추출하게 됩니다.
  • 이 과정에서 새로운 벡터와 시간 쌍 목록이 나오게 되는데 새로 나온 벡터는 768차원의 의미를 가지고 있습니다.
    768개의 특징 각각에 대해 4개의 지연이 있는 선형 시간 필터를 적용해 특징을 추출합니다.

Encoding model

  • 언어 모델에서 얻은 특징을 사용해 인코딩 모델에서 사용하게 됩니다.
  • 인코딩 모델에서는 혈중 산소 농도 신호에 가우시안 노이즈가 포함되는 가정을 하고, 의미적 특징을 예측된 뇌 신호에 맵핑합니다.
  • 특징을 결합하는 가중치는 정규화 선형 회귀를 통해 결정합니다.
  • T 시점에 대해 예측을 하여 앞서 언어 모델에서 말한 4개의 지연이 T+1, T+2, T+3, T+4 시점에 대해 특징을 구해 교차검정을 해 정규화 계수를 최적화해 BOLD 신호를 예측하게 됩니다. 

Word Rate model

  • 2초의 시간동안 예측된 단어 비율로 균등하게 나누어 단어 시간을 예측합니다.

Beam search decoder

  • 각 시점에 평가되는 단어가 이전에 디코딩된 단어에 따라 달라지도록 가능한 시퀀스의 조합 공간을 검색하는 Bean search 알고리즘을 사용합니다.
  • 가장 가능성이 높은 단어 시퀀스를 포함하는 빔을 유지하면서 지난 8초 동안의 단어 예측을 기반으로 가능한 연속을 예측합니다.

Results

디코딩 성능

  • 자극의 의미를 정확하게 포착하고 정확한 단어와 구문 디코딩
  • 다양한 언어 유사성 메트릭에서 나은 성능을 보임

대뇌피질 영역 분석

  • 언어 신호를 별도로 디코딩한 결과, 두정엽-측두엽-후두엽 연합 영역과 전두엽 영역에서 각각 언어 처리를 하고 있었습니다.

Perceived speech & Imagined speech 디코딩

  • 100%의 정확도로 정확하게 식별해 perceived speech와 imagined speech와 같은 작업 전반에 걸쳐 전달할 수 있었음

Imagined speech 결과

크로스 모달 디코딩

  • 무성 영화 시청과 같은 비언어적 task에 대한 뇌 반응을 해석 성공

Perceived movie 결과

attention

  • 디코딩은 주의력의 영향을 받아 피험자가 적극적으로 주의를 기울인 자극을 선택적으로 재구성

다중 화자 결과
저항 task 결과

언어 유사도 테스트

  • 디코더가 문자 그대로의 단어 정확도 뿐만 아니라 언어의 전반적인 의미 및 구문 내용을 디코딩하는 것을 평가했습니다.
  • 평가 지표
    • WER는 디코딩된 단어 시퀀스와 실제 발화 또는 의도된 단어 간의 차이를 측정하는 것으로 낮을수록 재구성된 언어에 오류가 적다는 것을 의미합니다.
    • BLEU는 디코더의 출력과 참조 언어 시퀀스 세트를 비교하여 점수가 높을수록 참조 시퀀스와 일치한다는 것을 의미합니다.
    • METEOR는 디코딩된 시퀀스를 참조와 비교하고 정확한 단어 일치뿐만 아니라 동의어 및 의역을 사용해 일치하는 부분을 설명하는 것으로 점수가 높을수록 의도한 언어를 재구성하는 디코더의 성능이 높다는 것을 의미합니다.
    • BERTScore는 직접적인 단어의 일치뿐만 아니라 각 단어가 나타내는 문맥을 고려해 디코딩된 텍스트와 참조 텍스트 간의 의미적 유사성을 평가합니다.

Language similarity scores

피험자 간 분석 결과

  • 같은 피험자의 데이터로 훈련된 디코더와 달리, 다른 피험자의 데이터로 훈련된 디코더는 현저히 성능이 낮았다는 한계가 있었습니다.

내 생각...

아마도 fMRI를 사용해서 데이터를 측정했기 때문에, 데이터가 각 피험자의 뇌 모양에 특화되어서 다른 피험자의 데이터로 훈련된 디코더는 성능이 낮았다고 하는 것 같다. 하지만 fMRI가 아닌 다른 방식으로 한다면 subject independent를 해결할 수 있을 것이다.

semantic을 하는 연구는 대부분 공간 해상도 때문에 fMRI를 이용해 디코딩하는 거 같다. 그래서 시간 해상도가 낮다.
fMRI로 하는 연구에서는 BOLD(blood-oxygen-level-dependent)와voxel 이라는 단어가 많이 나오는거 같다.


J. Tang, A. LeBel, S. Jain, and A. Huth, “Semantic reconstruction of continuous language from non-invasive brain recordings, Nature Neuroscience, Vol. 26, No. 5, 2023, pp. 858-866.

반응형

Comment