반응형
BrainBERT: Self-supervised Representation Learning for Intracranial Recordings
2023, 11th International Conference on Learning Representations
https://arxiv.org/abs/2302.14367
Abstract
- BrainBERT는 인간의 두뇌 내 전위 기록으로부터 복잡한 개념을 효과적으로 해석할 수 있는 새로운 Transformer 기반 모델
- 새로운 피험자와 전극 위치에서도 일반화 능력을 보여주며, 기존의 선형 디코더보다 우수한 성능을 제공
Goal
뇌 신호에서 self-supervised learning을 이용해 일반화 및 성능 향상을 달성하는 것
Motivation
- 기존의 뇌 신호 해석 방법들이 선형적 방법에 의존하면서 복잡한 뇌 신호를 효과적으로 해석하지 못하는 문제
- 비선형 변환 방법은 해석 가능성을 저하시키는 반면, 자기 감독 학습 방식은 이 두 가지 접근의 균형을 제공
- 더 큰 데이터 세트와 다양한 뇌 상태에서의 일반화 가능성이 요구
- NLP와 비슷하게 뇌 신호 처리에서도 컨텍스트 기반 임베딩이 유용함을 보여주는 연구의 필요성
- 뇌 신호의 자기 감독 학습을 통해 얻은 표현이 뇌의 복잡한 동작을 어떻게 해석할 수 있는지 탐구하는 것
Contribution
- 뇌 신호를 효과적으로 임베딩해 subject independent하지 않은 모델
- 선형 디코딩기의 성능을 개선
- 적은 데이터로도 효과적인 성능 달성
- 뇌의 여러 부분이 수행하는 계산의 내재적 차원에 대한 새로운 분석이 가능해짐
Data
- 뇌전증 환자 10명(남5, 여5)
- 장편 영화 시청(듣기) (21개)
- 각 피험자별 4.37시간
- 라벨이 없는 레코드
- 스펙토그램 변환
- SEEG
- 총 1688개 전극 (피험자당 평균 167개)
- 26회 수집
- session
- pre-train session 19
- 사전 훈련 중 포든 피험자와 전극 데이터를 5초 간격으로 분할
- 모든 세그먼트 단일 훈련 풀로 결합
- decoding session 7
- pre-train session 19
- 훈련 8 : 검증 1 : 테스트 1
https://github.com/czlwang/BrainBERT
Task
- Low level
- Volume
- 듣고 있는 오디오의 볼륨을 판단
- 동양상의 오디오 트랙에서 오디오의 볼륨 자동 계산
- 듣고 있는 오디오의 볼륨을 판단
- Volume
- Mid level
- Speech vs. non-speech
- 말을 듣고 있는지, 비언어를 듣고있는지 판단
- Pitch
- 들리는 단어의 높낮이 판단
- Speech vs. non-speech
- High level
- Sentence onset
- 비언어가 아닌 문장의 시작 부분을 들었는지 판단
- transcript에서 문장의 시작을 자동 도출
- 비언어가 아닌 문장의 시작 부분을 들었는지 판단
- Sentence onset
Methods
BrainBERT
- 트랜스포머를 사용해 신경 데이터의 복잡한 비선형 변환을 학습
Self-supervised learning
- 무작위로 선택된 뇌 신호의 일부를 마스킹하고 이를 예측하도록 학습
데이터 처리
- 높은 주파수의 신호에서 낮은 시간 해상도 문제를 해결
시간-주파수 표현
- 아래 두 가지 방식의 차이점은 트레이드오프를 처리하는 방식
- STFT
- 모든 주파수에 대해 해상도 고정
- 무작위로 선택된 시간과 주파수 간격으로 스펙토그램이 파열되는 마스킹 전략 사용
- Superlet
- 연속 웨이블릿 변환에 의해 만들어진 시간-주파수 해상도의 가변적 트레이드 오프를 반영하는 적응형 마스킹 체계를 사용
- 주파수에 따라 시간적 해상도 증가
- 고주파 진동이 시간에 밀접하게 국한되어 있는 신경 신호에 적합
- 모든 주파수 대역을 동등하게 배치함으로써 임베딩이 다양한 작업에 일반적이고 유용하게 사용될 수 있도록 함
- Superlet 기반 BrainBERT는 STFT 기반보다 미세 조정 없이도 일반화가 더 잘 됨
마스킹 기법 사용
- masked 언어 모델링, masked 오디오 모델링 사용
- 마스킹 언어 모델링이 문맥에 맞는 단어 임베딩을 제공하는 것과 같은 방식으로 문맥에 맞는 신경 임베딩을 제공
- 변형된 신호 부분을 예측해 신경망이 컨텍스트 정보를 이해하도록 함
학습 최적화
- 내용 인식 손실을 사용하여 중요한 신호 요소에 더 많은 가중치를 둠
정규화 과정
- 모든 빈도 대역을 동등하게 처리하여 일반화된 표현 학습
미세 조정 및 전이 학습
- 사전 학습된 모델을 특정 태스크에 적용하기 위한 추가 학습 과정
- 제로샷 또는 데이터가 있는 경우 각 피험자 및 또는 태스크에 맞게 미세 조정하여 사용할 수 있음
- 훈련 중의 가중치는 고정(미세 조정 없음)되거나 분류 헤드와 함께 업데이트 될 수 있음(미세 조정)
평가 방법
- ROC-AUC 메트릭을 사용하여 모델 성능을 정량적으로 평가
Results
- 1/5의 데이터로 다른 방법보다 성능이 뛰어남
- 다양한 뇌 영역에서 수행되는 계산의 특성을 조사하는 것과 같은 새로운 종류의 분석을 할 수 있게 됨
- 미세 조정 없이 디코딩 정확도
- BrainBERT의 평균 AUC: 0.63
- STFT는 BrainBERT를 미세 조정할 때, 최상의 성능을 제공
- Superlet은 미세 조정하지 않을 때 강함
- 새로운 피험자에 대한 일반화도 잘 됨
AUC란?
- AUC (Area Under the Curve) 지표는 ROC (Receiver Operating Characteristic) 곡선 아래의 면적을 의미하는 통계적 측정값
- AUC 값은 0과 1 사이의 값을 가지며, 값이 높을수록 모델의 분류 성능이 뛰어남
- AUC = 0.5: 모델의 성능이 무작위 추측(random guessing)과 같음을 의미. 즉, 분류 성능이 전혀 없는 경우
- AUC = 1.0: 모델이 모든 양성 샘플을 양성으로, 모든 음성 샘플을 음성으로 완벽하게 분류했음을 의미. 이는 이상적인 모델의 성능
- 0.5 < AUC < 1.0: AUC가 0.5보다 크면 큰 값일수록 모델의 성능이 좋다. 일반적으로 AUC가 0.7 이상이면 양호한 성능을, 0.8 이상이면 우수한 성능을 보이는 것으로 간주
Conclusion
- 성능 향상
- BrainBERT는 기존의 선형 디코더보다 우수한 성능을 보여주며, 특히 새로운 주제나 새로운 전극 위치에서도 높은 일반화 능력을 입증
- BrainBERT가 다양한 신경학적 조건과 실험적 설정에서 뛰어난 유연성을 갖추었음을 보여줍니다.
- 데이터 효율성
- 적은 양의 학습 데이터로도 높은 성능을 달성함으로써, 신경과학 실험에서 흔히 겪는 데이터 부족 문제를 해결하는 데 기여할 수 있음
- 계산 차원의 분석
- BrainBERT를 사용하여 두뇌의 다양한 영역에서 수행되는 계산의 본질적 차원을 분석
- 신경망이 뇌의 정보 처리 방식을 모사할 수 있음을 시사하며, 신경과학의 이해를 심화시키는 데 기여할 수 있음
- 응용 가능성
- BrainBERT의 임베딩은 두뇌 상태의 변화를 탐구하는 새로운 방법을 제공하며, 이는 수면 등의 뇌 상태 변화를 이해하는 데 사용될 수 있음.
- 뇌의 다양한 기능적 영역 간의 연결성과 계산 흐름을 연구하는 데 유용한 도구가 될 수 있음
내 생각...
SSL 적용해서 피험자 의존적인 문제를 해결할 수 있는 방안을 제안했다고 생각한다.
BCI 데이터에서 가장 문제로 삼고 있는 것이 fmri 데이터를 사용하면 피험자의존적이게 되어서 다른 피험자의 데이터로 학습한 모델은 적용하기에 어려운데 이렇게 domain adaptation을 이용한다면 피험자 의존적인 문제를 해결할 수 있을 것 같다.
Wang et al., “BrainBERT: Self-supervised representation learning for intracranial recordings,” ICLR, 2023.
반응형
Comment