BASE
1. Transformer 기반 구조
현대 LLM의 표준 뼈대입니다. 문장 내 단어 간의 관계를 병렬로 처리합니다.
- 병렬 연산: GPU 자원을 100% 활용하여 대규모 데이터 학습/추론에 최적화되어 있습니다.
- 배포 팁:
vLLM 같은 프레임워크를 쓰면 이 병렬 구조를 활용해 수천 명의 동시 접속자를 처리할 수 있습니다.
EFFICIENCY
2. Sparse MoE (Mixture of Experts)
모든 파라미터를 다 쓰지 않고, 필요한 '전문가'만 깨워서 일 시키는 방식입니다.
- 핵심 원리: 26B 모델이지만 추론 시 약 4B(활성 파라미터)만 사용하여 응답 속도가 압도적으로 빠릅니다.
- 주의사항: 속도는 빠르지만 모델 전체(26B)를 메모리에 올려야 하므로 VRAM 용량은 충분히 확보해야 합니다.
MEMORY
3. 하이브리드 어텐션
긴 문서를 읽을 때 메모리를 효율적으로 쓰는 기술입니다. (최대 256K 컨텍스트 지원)
- 동작: 가까운 내용은 촘촘하게(Sliding Window), 먼 내용은 핵심만(Global) 파악합니다.
- 비즈스탯 적용: 사용자의 방대한 마이데이터 리포트를 분석할 때 메모리 부족(OOM) 오류를 방지합니다.
INTELLIGENCE
4. 지식 증류 (Distillation)
거대 모델(Gemini Ultra)의 지능을 Gemma 4라는 작은 그릇에 압축해 담았습니다.
- 효과: 모델 체급은 작지만, 상위 모델의 논리적 추론과 복잡한 문제 해결 능력을 그대로 보여줍니다.
- 개발 팁: 기본 지능이 높기 때문에, 적은 양의 데이터로도 파인튜닝(Fine-tuning) 효율이 매우 좋습니다.