Trending

OAT

sail-sgApache-2.02026.06.23

LLM661 Stars63 Forks43 조회

Sea AI Lab(sail-sg)이 개발한 연구 친화적 LLM 온라인 정렬(online alignment) 프레임워크입니다. 강화학습(RLHF), 선호 학습(DPO), 온라인 RL 등 다양한 LLM 정렬 기법을 단일 프레임워크에서 실험할 수 있도록 설계되었습니다. 듀얼링 밴딧·톰슨 샘플링 기반의 온라인 탐색과 분산 RL 학습을 지원하며, PPO·GRPO·R1-Zero 스타일 추론 학습까지 폭넓게 다룹니다. LLM 정렬 알고리즘을 빠르게 프로토타이핑하려는 연구자에게 특히 유용하며, Apache-2.0 라이선스로 공개되어 있습니다.

주요 특징

RLHF·DPO·온라인 RL 등 다양한 정렬 기법 통합 지원
듀얼링 밴딧·톰슨 샘플링 기반 온라인 탐색
분산 강화학습 및 분산 학습 지원
PPO·GRPO·R1-Zero 스타일 추론 학습 구현
연구용 프로토타이핑에 최적화된 모듈러 설계

Open Source

OAT

주요 특징

태그

관련 프로젝트

Hugging Face Transformers

Gemini CLI

LLMs from Scratch

Awesome MCP Servers