James Lee-Thorp
James Lee-Thorp는 Transformer 이론 및 AI 정렬을 전문으로 하는 인공지능 연구원으로, 현재 Meta의 초지능 팀에서 연구 과학자로 근무하고 있습니다. 그는 FNet 아키텍처를 포함한 효율적인 Transformer 모델에 대한 연구로 알려져 있습니다. [1] [2]
교육
Lee-Thorp는 케이프타운 대학교에서 수학 학사 및 석사 학위를 받았습니다. 이후 미국으로 이주하여 2011년에서 2016년 사이에 컬럼비아 대학교에서 수학 박사 학위를 취득했습니다. [1] [3] [5]
경력
박사 학위를 마친 후 Lee-Thorp는 2016년부터 2017년까지 뉴욕 대학교에서 박사후 연구원으로 재직했습니다. 그의 초기 경력에는 Goldman Sachs에서 소프트웨어 엔지니어로 근무한 경력도 포함됩니다. 이후 Google로 이직하여 연구원 및 소프트웨어 엔지니어로 근무했습니다. Google에서 그는 효율적인 Transformer 아키텍처에 대한 연구에 핵심적인 기여를 했습니다. 2025년 Lee-Thorp는 Meta의 새롭게 구성된 "초지능" 팀의 일원으로 연구 과학자로 합류했습니다.
그의 연구는 AI 시스템이 인간의 의도와 가치에 따라 작동하도록 보장하는 것을 목표로 하는 AI 정렬에 중점을 둡니다. 여기에는 인간 피드백을 통한 강화 학습(RLHF)과 AI 보상 모델을 개선하기 위한 시선 추적과 같은 인간 인지 신호의 사용에 대한 연구가 포함됩니다. 그의 전문성은 고급 AI 시스템의 안전과 제어 가능성을 해결하기 위한 Meta 전략의 중요한 부분으로 간주됩니다.
Lee-Thorp는 자연어 처리 및 머신 러닝 분야에서 여러 영향력 있는 논문을 공동 저술했습니다. 그의 연구는 종종 대규모 AI 모델의 효율성과 이해도를 향상시키는 데 중점을 둡니다.
- FNet: 푸리에 변환으로 토큰 혼합 (2022): 이 논문은 Transformer 인코더에서 자체 주의 메커니즘을 매개변수화되지 않은 푸리에 변환으로 대체하는 모델인 FNet을 소개했습니다. 이 연구는 이 접근 방식이 GPU 및 TPU에서 훈련 시간을 크게 단축(70-80%)하면서 GLUE 벤치마크에서 유사한 BERT 모델의 정확도의 92-97%를 유지할 수 있음을 입증했습니다. 이 모델은 또한 Long Range Arena 벤치마크에서 매우 효율적인 것으로 나타났으며, 더 빠르면서도 최고 모델의 정확도와 일치했습니다.
- GQA: 멀티 헤드 체크포인트에서 일반화된 멀티 쿼리 Transformer 모델 훈련 (2023): EMNLP 2023에서 발표된 이 연구는 기존 멀티 헤드 체크포인트를 활용하여 디코더 추론 속도를 가속화할 수 있는 멀티 쿼리 주의 모델을 훈련하는 방법을 탐구합니다.
- CoLT5: 조건부 계산을 통한 더 빠른 장거리 Transformer (2023): EMNLP 2023에서 발표된 이 논문은 긴 시퀀스 처리를 위한 효율성을 향상시키기 위해 조건부 계산을 사용하는 장거리 Transformer 모델을 소개했습니다.
- 희소 업사이클링: 밀집 체크포인트에서 전문가 혼합 훈련 (2023): ICLR 2023에서 발표된 이 연구는 기존 밀집 모델에서 희소 전문가 혼합(MoE) 모델을 생성하는 방법(이 과정을 "업사이클링"이라고 함)을 제시했습니다. 이를 통해 처음부터 훈련할 필요 없이 더 효율적이고 더 큰 용량의 모델을 만들 수 있습니다.
이러한 출판물은 더 계산적으로 효율적이고 확장 가능한 AI 모델을 만드는 데 중점을 두고 있음을 강조합니다.
2022년 Lee-Thorp와 그의 공동 저자는 논문 "FNet: 푸리에 변환으로 토큰 혼합"으로 북미 전산 언어학 협회(NAACL) 컨퍼런스에서 "최고의 효율적인 NLP 논문" 상을 받았습니다. [4] [1] [2] [3] [5] [6]