[BCI/논문/리뷰/Nature Neuroscience] Semantic reconstruction of continuous language from non-invasive brain recordings

Semantic reconstruction of continuous language from non-invasive brain recordings

2023, Nature Neuroscience

https://www.nature.com/articles/s41593-023-01304-9

Abstract

fMRI로 기록된 뇌 반응에서 연속적인 언어를 재구성할 수 있는 비침습적 디코더에 대한 소개
perceived speech, imagined speech, perceived movie, 등 다양한 인지 과정을 정확하게 표현하는 단어 시퀀스를 생성
대뇌 피질의 여러 영역에서 테스트한 결과, 여러 영역의 언어를 디코딩할 수 있는 것으로 나타남
mental privacy: 훈련과 적용 모두 피험자의 협조가 필요하며, 사용자의 동의 없이는 BCI를 사용할 수 없었음

Goal

Multi-head Self-attention GPT-1 모델을 사용해 perceived 및 imagined speech를 할 때, 발현되는 뇌 신호로부터 정보를 재구성

Motivation

기존의 BCI는 특정 의료 분야로 침습적 방법에 의존하고 있었습니다.
하지만, 침습적인 특징으로 수술과 관련된 위험과 복잡성으로 인해 광범위하게 사용하기에 어려움이 존재합니다.
이전의 비침습적 언어는 디코더의 작은 단어나 구문으로 제한되어 있어 복잡한 언어의 처리 및 이해와 관련된 복잡한 신경 패턴을 포착할 수 없었습니다.

Contribution

fMRI로 기록된 피질 의미 표현에서 연속적인 언어를 재구성할 수 있는 비침습적인 디코더 개발
여러 대뇌 피질 영역에서 분리된 언어 디코딩

Data

7명의 정상인 피험자
fMRI 64채널
실험군이 없어서 블라인드 테스트 진행 안함

Data availability

https://openneuro.org/datasets/ds003020 and https://openneuro.org/datasets/ds004510

Code availability

GitHub - HuthLab/semantic-decoding

Contribute to HuthLab/semantic-decoding development by creating an account on GitHub.

github.com

Model test dataset

Perceived speech
- 5-15분 분량의 이야기를 들음 (The Moth Radio Hour, Modern Love and The Anthropocene Reviewed)
- 자극 전 후에 10초의 무음 버퍼

Imagined speech
- 1분 분량의 이야기 상상 (모델 훈련에서 나온 5개의 Modern Love 중에서 1분 분량만)
- 피험자들은 각 세그먼트 ID(‘alpha’, ‘bravo’, ‘charlie’, ‘delta’ and ‘echo’) 학습
- 각 ID에 대한 cue를 듣고 기억에서 해당 세그먼트를 말하는 것을 상상
- 각 이야기 세그먼트는 14분 동안의 단일 fMRI에서 2번 시행
- 각 cue 후의 10초의 준비 시간
- 각 세그먼트 후 10초의 휴식 시간

Perceived movie
- 4-6분 분량의 단편 애니메이션 영화 클립 4편 시청 (‘La Luna’ (Pixar Animation Studios), ‘Presto’ (Pixar Animation Studios), ‘Partly Cloudy’ (Pixar Animation Studios) and ‘Sintel’ (Blender Foundation))
- 소리가 거의 없는 무성 영화
- 피험자가 소리를 내지 않고서 fMRI 스캔
- 영상 전 후에 10초 동안 검은색 화면 버퍼 표시

Multi-speaker
- 여성, 남성 화자가 들려주는 두 가지 이야기(The Moth Radio Hour)를 겹쳐서 구성한 6분짜리 자극 2번 시행
  - 두 이야기의 음성 파형을 모노로 변환해 오버레이
- 여기서 사용한 이야기는 모델 train에서 제외
- 한 번은 여성 화자에 집중, 다른 한 번은 남성 화자에 집중
- 자극 전 후에 10초의 무음 버퍼

Decoder resistance
- 80초 분량의 4가지 세그먼트 중 하나를 재생
- 세그먼트가 시작되기 전, 피험자에게 4가지 인지 task(‘listen’, ‘count’, ‘name’ and ‘tell’) 중 하나를 수행하라는 신호
  - listen: 수동적으로 이야기의 부분을 듣기
  - count: 머릿속으로 7까지 세기
  - name: 머릿속으로 동물의 이름을 부르고 상상
  - tell: 머릿속으로 다양한 이야기를 말하기
- 모든 cue에서 말하거나 다른 동작을 하지 않음
- 과정
  1. 각 task가 일부 세그먼트에서 가장 먼저 cue를 받도록 하고
  2. 각 task가 모든 세그먼트에서 정확히 한 번씩 cue를 받도록 균형을 맞춰서 총 16번 진행
- 8 trial로 구성된 14분짜리 fMRI 스캔을 2번 시행
- 각 trial 후 10초의 준비 시간과 10초의 휴식 시간

Methods

Language model

단어 시퀀스에 대한 사전 확률 분포 추정
GPT-1 모델에서 멀티헤드 셀프어텐션을 가진 12개의 레이어를 사용했습니다.
레이어 중에서 중간에 있는 9번째 레이어를 사용해 각 단어와 시간 쌍에 대한 단어 시퀀스를 사용해 의미론적 특징을 추출하게 됩니다.
이 과정에서 새로운 벡터와 시간 쌍 목록이 나오게 되는데 새로 나온 벡터는 768차원의 의미를 가지고 있습니다.
768개의 특징 각각에 대해 4개의 지연이 있는 선형 시간 필터를 적용해 특징을 추출합니다.

Encoding model

언어 모델에서 얻은 특징을 사용해 인코딩 모델에서 사용하게 됩니다.
인코딩 모델에서는 혈중 산소 농도 신호에 가우시안 노이즈가 포함되는 가정을 하고, 의미적 특징을 예측된 뇌 신호에 맵핑합니다.
특징을 결합하는 가중치는 정규화 선형 회귀를 통해 결정합니다.
T 시점에 대해 예측을 하여 앞서 언어 모델에서 말한 4개의 지연이 T+1, T+2, T+3, T+4 시점에 대해 특징을 구해 교차검정을 해 정규화 계수를 최적화해 BOLD 신호를 예측하게 됩니다.

Word Rate model

2초의 시간동안 예측된 단어 비율로 균등하게 나누어 단어 시간을 예측합니다.

Beam search decoder

각 시점에 평가되는 단어가 이전에 디코딩된 단어에 따라 달라지도록 가능한 시퀀스의 조합 공간을 검색하는 Bean search 알고리즘을 사용합니다.
가장 가능성이 높은 단어 시퀀스를 포함하는 빔을 유지하면서 지난 8초 동안의 단어 예측을 기반으로 가능한 연속을 예측합니다.

Results

디코딩 성능

자극의 의미를 정확하게 포착하고 정확한 단어와 구문 디코딩
다양한 언어 유사성 메트릭에서 나은 성능을 보임

대뇌피질 영역 분석

언어 신호를 별도로 디코딩한 결과, 두정엽-측두엽-후두엽 연합 영역과 전두엽 영역에서 각각 언어 처리를 하고 있었습니다.

Perceived speech & Imagined speech 디코딩

100%의 정확도로 정확하게 식별해 perceived speech와 imagined speech와 같은 작업 전반에 걸쳐 전달할 수 있었음

크로스 모달 디코딩

무성 영화 시청과 같은 비언어적 task에 대한 뇌 반응을 해석 성공

attention

디코딩은 주의력의 영향을 받아 피험자가 적극적으로 주의를 기울인 자극을 선택적으로 재구성

언어 유사도 테스트

디코더가 문자 그대로의 단어 정확도 뿐만 아니라 언어의 전반적인 의미 및 구문 내용을 디코딩하는 것을 평가했습니다.
평가 지표
- WER는 디코딩된 단어 시퀀스와 실제 발화 또는 의도된 단어 간의 차이를 측정하는 것으로 낮을수록 재구성된 언어에 오류가 적다는 것을 의미합니다.
- BLEU는 디코더의 출력과 참조 언어 시퀀스 세트를 비교하여 점수가 높을수록 참조 시퀀스와 일치한다는 것을 의미합니다.
- METEOR는 디코딩된 시퀀스를 참조와 비교하고 정확한 단어 일치뿐만 아니라 동의어 및 의역을 사용해 일치하는 부분을 설명하는 것으로 점수가 높을수록 의도한 언어를 재구성하는 디코더의 성능이 높다는 것을 의미합니다.
- BERTScore는 직접적인 단어의 일치뿐만 아니라 각 단어가 나타내는 문맥을 고려해 디코딩된 텍스트와 참조 텍스트 간의 의미적 유사성을 평가합니다.

피험자 간 분석 결과

같은 피험자의 데이터로 훈련된 디코더와 달리, 다른 피험자의 데이터로 훈련된 디코더는 현저히 성능이 낮았다는 한계가 있었습니다.

내 생각...

아마도 fMRI를 사용해서 데이터를 측정했기 때문에, 데이터가 각 피험자의 뇌 모양에 특화되어서 다른 피험자의 데이터로 훈련된 디코더는 성능이 낮았다고 하는 것 같다. 하지만 fMRI가 아닌 다른 방식으로 한다면 subject independent를 해결할 수 있을 것이다.

semantic을 하는 연구는 대부분 공간 해상도 때문에 fMRI를 이용해 디코딩하는 거 같다. 그래서 시간 해상도가 낮다.
fMRI로 하는 연구에서는 BOLD(blood-oxygen-level-dependent)와voxel 이라는 단어가 많이 나오는거 같다.

J. Tang, A. LeBel, S. Jain, and A. Huth, “Semantic reconstruction of continuous language from non-invasive brain recordings,” Nature Neuroscience, Vol. 26, No. 5, 2023, pp. 858-866.

저작자표시 비영리 변경금지

'Study > paper' 카테고리의 다른 글

[BCI/논문/리뷰/ICLR] BrainBERT: Self-supervised Representation Learning for Intracranial Recordings (0)	2024.04.19
[BCI/논문/리뷰/TNSRE] Speech2EEG: Leveraging Pretrained Speech Model for EEG Signal Recognition (0)	2024.04.04
[BCI/논문/리뷰/Nature Neuroscience] Shared computational principles for language processing in humans and deep language models (0)	2024.03.13
[BCI/논문/리뷰/TNSRE] Aligning Semantic in Brain and Language: A Curriculum Contrastive Method for Electroencephalography-to-Text Generation (0)	2024.02.22
[BCI/논문/리뷰/Nature Communications] The spatiotemporal dynamics of semantic integration in the human brain (0)	2024.01.26

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

favorcat

[BCI/논문/리뷰/Nature Neuroscience] Semantic reconstruction of continuous language from non-invasive brain recordings

Semantic reconstruction of continuous language from non-invasive brain recordings

Abstract

Goal

Motivation

Contribution

Data

Data availability

Code availability

Model test dataset

Methods

Language model

Encoding model

Word Rate model

Beam search decoder

Results

디코딩 성능

대뇌피질 영역 분석

Perceived speech & Imagined speech 디코딩

크로스 모달 디코딩

attention

언어 유사도 테스트

피험자 간 분석 결과

내 생각...

'Study > paper' 카테고리의 다른 글

Comment

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

[BCI/논문/리뷰/Nature Neuroscience] Semantic reconstruction of continuous language from non-invasive brain recordings

Semantic reconstruction of continuous language from non-invasive brain recordings

Abstract

Goal

Motivation

Contribution

Data

Data availability

Code availability

Model test dataset

Methods

Language model

Encoding model

Word Rate model

Beam search decoder

Results

디코딩 성능

대뇌피질 영역 분석

Perceived speech & Imagined speech 디코딩

크로스 모달 디코딩

attention

언어 유사도 테스트

피험자 간 분석 결과

내 생각...

'Study > paper' 카테고리의 다른 글

관련글

Comment

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역