
Byte Latent Transformer (BLT): 토큰보다 패치가 더 잘 확장된다이 논문은 Byte Latent Transformer (BLT)라는 새로운 언어 모델 아키텍처를 소개합니다. BLT는 기존 언어 모델의 고정된 토큰화 방식에서 벗어나, raw 바이트 데이터를 처리하고 동적으로 크기가 조절되는 "패치(patches)"를 사용합니다.핵심 아이디어:토큰화의 한계 극복: 기존 대규모 언어 모델(LLMs)은 텍스트를 미리 정의된 어휘의 "토큰"으로 분할하는 토큰화 방식을 사용합니다. 이는 도메인/모달리티 민감성, 입력 노이즈에 대한 취약성, 다국어 불평등 등 여러 문제를 야기합니다.바이트 레벨 처리: BLT는 토큰화 없이 raw 바이트를 직접 처리하여 이러한 문제를 해결합니다. 하지만 단순히 바..