AI연구

Byte Latent Transformer (BLT)라는 새로운 언어 모델 아키텍처

諺解 2025. 4. 18. 15:03
반응형

Byte Latent Transformer (BLT): 토큰보다 패치가 더 잘 확장된다

이 논문은 Byte Latent Transformer (BLT)라는 새로운 언어 모델 아키텍처를 소개합니다. BLT는 기존 언어 모델의 고정된 토큰화 방식에서 벗어나, raw 바이트 데이터를 처리하고 동적으로 크기가 조절되는 "패치(patches)"를 사용합니다.

핵심 아이디어:

  • 토큰화의 한계 극복: 기존 대규모 언어 모델(LLMs)은 텍스트를 미리 정의된 어휘의 "토큰"으로 분할하는 토큰화 방식을 사용합니다. 이는 도메인/모달리티 민감성, 입력 노이즈에 대한 취약성, 다국어 불평등 등 여러 문제를 야기합니다.
  • 바이트 레벨 처리: BLT는 토큰화 없이 raw 바이트를 직접 처리하여 이러한 문제를 해결합니다. 하지만 단순히 바이트 단위로 처리하면 시퀀스 길이가 길어져 계산 비용이 매우 커집니다.
  • 동적 패치: BLT는 바이트를 동적으로 크기가 조절되는 패치로 그룹화하여 이 문제를 해결합니다. 패치 크기는 다음 바이트의 엔트로피(정보 복잡성)에 따라 결정되며, 데이터 복잡성이 높을 때 더 많은 계산 리소스를 할당합니다.
  • 하이브리드 아키텍처: BLT는 세 가지 모듈로 구성됩니다.
    • Local Encoder: 입력 바이트를 패치 표현으로 인코딩합니다.
    • Latent Transformer: 패치 표현에 대해 작동하는 대규모 글로벌 트랜스포머입니다.
    • Local Decoder: 패치 표현을 raw 바이트로 디코딩합니다.

주요 성과:

  • 효율성과 견고성 향상: BLT는 토큰화 기반 모델과 비교하여 추론 효율성과 견고성을 크게 향상시킵니다. 동일한 학습 데이터 및 추론 예산에서 토큰화 기반 모델의 성능을 능가하거나 유사한 성능을 달성하면서도 최대 50%까지 추론 FLOPS를 절감할 수 있습니다.
  • 새로운 확장 축: BLT는 모델 크기와 패치 크기를 동시에 늘리면서도 고정된 추론 예산을 유지할 수 있는 새로운 확장 축을 제공합니다. 이는 실제 환경에서 흔히 발생하는 컴퓨팅 제약 조건에 유리합니다.
  • 긴 꼬리 데이터 및 노이즈 처리 개선: raw 바이트를 직접 처리함으로써 BLT는 데이터의 긴 꼬리 부분을 더 잘 모델링하고 입력 노이즈에 대한 견고성을 향상시킵니다. 또한 단어 하위 구조에 대한 더 깊은 이해를 보여줍니다.

연구 결과 요약:

  • 8B 매개변수 및 4T 학습 바이트까지의 바이트 레벨 모델에 대한 FLOP 제어 스케일링 연구를 수행했습니다.
  • BLT 모델은 compute-optimal 설정에서 Llama 3와 같은 최첨단 토큰화 기반 모델과 동등한 스케일링 트렌드를 보여줍니다.
  • BLT-Entropy 모델은 Llama 3보다 평균적으로 더 나은 성능을 보이며, 특히 character-level 작업에서 큰 폭의 개선을 보여줍니다.
  • 패치 길이 스케일링 연구를 통해 BLT가 패치 크기와 모델 크기를 동시에 늘리면서 더 나은 스케일링 트렌드를 달성할 수 있음을 확인했습니다.
  • n-gram 해시 임베딩과 교차 어텐션의 효과를 검증하는 어블레이션 연구를 수행했습니다.

결론:

BLT는 대규모 언어 모델에서 고정된 어휘 토큰화에 대한 기존 의존성을 재정의하는 유망한 대안 아키텍처입니다. 동적 패칭 방식을 통해 BLT는 데이터 복잡성에 따라 계산 리소스를 효율적으로 할당하여 효율성과 견고성을 모두 향상시킵니다. 이는 더 효율적이고 적응 가능한 언어 모델을 위한 확장 가능하고 견고한 프레임워크를 제공합니다.

 


 

이 논문은 BLT라는 새로운 AI 모델 기술에 대한 거예요. 쉽게 말해, AI가 글자(텍스트)를 이해하고 처리하는 방식이 기존 모델들과는 좀 다르다는 거죠.

가장 중요한 차이는 글자를 보는 단위예요:

  • 기존 AI 모델 (예: Llama 3 같은 모델): 글자들을 '토큰'이라는 묶음으로 미리 정해놓고 그 토큰 단위로 봐요. 마치 단어나 단어 조각으로 쪼개서 보는 것처럼요.
  • BLT: 글자를 훨씬 더 잘게, '바이트'라는 컴퓨터의 가장 기본적인 데이터 단위로 직접 봐요. 그리고 필요한 만큼만 바이트들을 묶어서 '패치'라는 걸 만들어 처리하는데, 이 패치 크기가 고정된 게 아니라 내용에 따라 달라져요.

댓글에서 사람들이 기대하거나 주목하는 BLT의 장점들은 이런 것들이 있어요:

  1. 더 세밀한 이해와 정확한 작업: 바이트 단위로 글자를 직접 보니까, 기존 토큰 방식으로는 놓쳤던 미묘한 차이나 글자의 구성 요소까지 더 정확하게 이해할 수 있대요. 그래서 오타가 있거나 약간 변형된 텍스트에도 강하고, 텍스트를 정확히 삽입하거나 삭제하는 편집이나 코드 작성 같은 작업에서 훨씬 더 나은 성능을 보일 거라고 예상해요. (논문의 "견고성" 부분과 관련)
  2. 어떤 언어든 자연스럽게 처리: 태국어처럼 단어 사이에 띄어쓰기가 없어서 기존 토큰 방식이 불편했던 언어들도 바이트 단위로 보면 문제없이 잘 처리할 수 있대요. 미리 정해진 '토큰 사전'이 필요 없기 때문이죠. (논문의 "다국어 불평등 해소"와 관련)
  3. 효율성 향상: 데이터의 복잡성에 따라 패치 크기를 다르게 해서 계산을 필요한 곳에 집중시키니까, 기존 모델보다 훨씬 효율적으로 작동할 수 있대요. 같은 성능을 내면서도 컴퓨터 자원을 덜 쓸 수 있다는 뜻이죠. (논문의 "추론 효율성"과 관련)
  4. 텍스트 외 데이터 처리 가능성: 바이트는 텍스트에만 있는 단위가 아니라 이미지, 소리 등 모든 컴퓨터 데이터의 기본 단위거든요. 그래서 바이트 레벨로 이해하는 BLT 기술이 나중에는 텍스트뿐만 아니라 다양한 종류의 데이터를 함께 이해하는 AI 모델로 발전할 수 있을 거라는 기대도 있어요. (논문의 "모달리티 민감성 해소" 잠재력과 관련)
  5. 고정된 틀(어휘)에서 벗어남: 기존 모델은 고정된 토큰 사전에 묶여서 이해력에 한계가 있었다는 지적도 있는데, BLT는 그런 제약 없이 raw 바이트를 그대로 보니까 AI의 이해력이 더 넓어질 수 있다는 가능성을 제시해요. (논문의 "고정 어휘의 한계 극복"과 관련)

궁금해하는 점들:

  • 모델 사용 가능 여부: 논문에서 코드와 일부 학습된 모델을 공개했다고 하네요. 하지만 아직은 일반 사용자가 집에서 쉽게 구동하기는 어려울 수 있다는 의견도 있어요.
  • Llama 4와 관계: 최근 나온 Llama 4가 이 BLT 기술을 썼는지 묻는 댓글도 있었는데, Llama 4는 이 기술이 아닌 다른 방식(기존 트랜스포머 방식의 변형)을 썼다고 합니다.

요약하자면, BLT는 글자를 '바이트' 단위로 보면서 기존 AI 모델의 한계를 극복하고, 더 똑똑하고 효율적이며 다양한 데이터까지 처리할 수 있는 잠재력을 가진 새로운 기술이라고 보시면 됩니다.

 

https://arxiv.org/abs/2412.09871

 

Byte Latent Transformer: Patches Scale Better Than Tokens

We introduce the Byte Latent Transformer (BLT), a new byte-level LLM architecture that, for the first time, matches tokenization-based LLM performance at scale with significant improvements in inference efficiency and robustness. BLT encodes bytes into dyn

arxiv.org

 

https://ai.meta.com/blog/meta-fair-updates-perception-localization-reasoning/

 

Advancing AI systems through progress in perception, localization, and reasoning

To address this, we built Meta Locate 3D, an end-to-end model that can accurately localize objects from open-vocabulary queries. Meta Locate 3D directly operates on 3D point clouds from RGB-D sensors that are received from a robot. When given a text prompt

ai.meta.com

 

반응형