Bowen Cheng

Wiki Powered byIconIQ
Bowen Cheng

Bowen Cheng

Bowen Cheng(程博文)은 의 인공지능 연구원입니다. 그는 멀티모달 기초 모델을 전문으로 하며 OpenAI의 GPT-4o 및 Tesla의 완전 자율 주행(FSD) 소프트웨어를 포함한 중요한 AI 프로젝트에 기여했습니다. [1] [2]

교육

Cheng은 일리노이 대학교 어바나-샴페인(UIUC)에서 전기 및 컴퓨터 공학(ECE) 학사 및 박사 학위를 받았습니다. 박사 과정 동안 그의 지도교수는 Alexander Schwing 교수와 Thomas Huang 교수였습니다. [1] [2] [4]

경력

2025년 현재 Bowen Cheng은 (MSL)의 연구원입니다. 그는 OpenAI에서 멀티모달 이해 및 상호 작용 연구원으로 근무한 후 새로 구성된 그룹에 합류했습니다. OpenAI에 있는 동안 그는 멀티모달 모델 구축에 중점을 둔 사후 훈련 팀의 일원이었습니다. OpenAI에 합류하기 전에는 Tesla에서 Autopilot 팀에서 근무한 수석 연구 과학자였습니다. 학업 기간 동안 그는 뉴욕시와 멘로 파크의 Facebook AI Research(FAIR), 로스앤젤레스의 Google Research, Redmond의 Microsoft Research, 베이징의 Microsoft Research Asia를 포함한 저명한 기술 연구소에서 여러 연구 인턴십을 완료했습니다. [1] [3] [2] [4] [5] [6]

Cheng은 인공지능 분야에서 여러 주요 프로젝트에 핵심 기여자였습니다. 그의 연구는 컴퓨터 비전, 자율 주행 및 대규모 멀티모달 모델에 걸쳐 있습니다.

그의 주목할만한 기여는 다음과 같습니다.

  • Meta Superintelligence Lab: 고급 AI 연구 개발에 집중하기 위해 구성된 팀에 연구 과학자로 합류했습니다. [2]
  • OpenAI:
    • GPT-4o: 오디오 상호 작용에서 훨씬 낮은 대기 시간을 특징으로 하는 인식 및 고급 음성 모드에 중점을 둔 핵심 기여자 역할을 했습니다.
    • Thinking with Images: 인식 문제 해결의 패러다임 전환이라고 설명한 이 프로젝트에 대한 연구를 시작하고 기초적인 기여를 했습니다.
    • o3 및 o4-mini: 이러한 모델에 대한 핵심 기여자 역할을 했습니다.
    • GPT-4.1: 핵심 기여자로 등재되었습니다.
    • OpenAI Audio API: 차세대 오디오 모델에 대한 연구에 기여했습니다. [1] [3]
  • Tesla:
    • FSD v12: Tesla의 완전 자율 주행 소프트웨어의 12번째 버전에 대한 핵심 기여자였습니다. [1] [3]
  • 학술 연구:
    • Mask2Former: 범용 이미지 분할 아키텍처입니다.
    • MaskFormer: 전경 분할을 위한 아키텍처입니다.
    • Panoptic-DeepLab: 전경 분할을 위한 하향식 접근 방식입니다.

이러한 프로젝트는 분할 변환기 및 멀티모달 시스템에 대한 그의 연구를 강조합니다. [1] [5] [6]

연구 관심사

Cheng의 주요 연구 관심사는 실시간 멀티모달 상호 작용 시스템을 구축하는 것입니다. 그는 스트리밍 오디오 및 비디오 입력을 처리하여 실시간으로 스트리밍 오디오 및 비디오 출력을 생성할 수 있는 AI를 개발하는 것을 목표로 합니다. 이러한 시스템에 대한 그의 비전에는 원활한 상호 작용을 위한 무한한 컨텍스트 창, 고급 장기 기억 기능, 새로운 정보로 최신 상태를 유지하면서 콘텐츠를 적극적으로 생성하는 기능과 같은 기능이 포함됩니다. [1] [6] [5]

참고 문헌.

카테고리위키 MC이벤트용어집