Cloudflare Infire: 엣지 네트워크에서 1조 파라미터 LLM을 8개 GPU로 실행
Cloudflare가 자체 개발한 AI 추론 엔진 Infire를 공개했다. Disaggregated Prefill 아키텍처와 Unweight 가중치 압축 기술로 Kimi K2.5(1조 파라미터)를 H100 8대로 구동하며 글로벌 저지연 LLM 서빙을 실현했다.
Cloudflare가 자체 개발한 AI 추론 엔진 Infire를 공개했다. Disaggregated Prefill 아키텍처와 Unweight 가중치 압축 기술로 Kimi K2.5(1조 파라미터)를 H100 8대로 구동하며 글로벌 저지연 LLM 서빙을 실현했다.
Cloudflare, LLM 추론 인프라의 판을 바꾸다
Cloudflare가 2026년 5월 자체 개발한 AI 추론 엔진 Infire의 세부 기술을 공개했다. Infire는 Rust로 작성된 커스텀 머신러닝 추론 엔진으로, Cloudflare의 글로벌 네트워크 위에서 대형 언어 모델(LLM)을 효율적으로 실행하기 위해 설계됐다. 핵심 혁신은 입력 처리와 출력 생성을 물리적으로 분리하는 Disaggregated Prefill 아키텍처와, 모델 가중치를 15~22% 압축하는 Unweight 시스템이다.
주요 기능 소개
Disaggregated Prefill 아키텍처
LLM 추론에는 두 단계가 존재한다. 첫 번째는 사용자 입력을 처리하는 Prefill 단계로, 계산 집약적이며 병렬 처리에 최적화돼야 한다. 두 번째는 토큰을 하나씩 생성하는 Decode 단계로, 낮은 지연이 중요하다. Cloudflare는 이 두 단계를 각각 다른 하드웨어에서 처리하는 분리 아키텍처를 채택했다. 이로써 각 단계에 최적화된 GPU 설정을 적용할 수 있어 전체 처리량과 응답 지연을 동시에 개선한다.
Unweight 가중치 압축
Unweight는 LLM 가중치를 약 15~22% 압축하면서도 정확도 손실이 없는 압축 시스템이다. 이 기술은 GPU 메모리 사용량을 줄여 더 적은 하드웨어로 대형 모델을 운용할 수 있게 한다. 실제 성과로 Llama 4 Scout를 H200 GPU 2대에서, 1조 파라미터 규모의 Kimi K2.5(약 560GB)를 H100 GPU 8대에서 구동하는 데 성공했다.
파이프라인·텐서 병렬화 통합
Infire는 파이프라인 병렬화(Pipeline Parallelism)와 텐서 병렬화(Tensor Parallelism)를 동시에 활용해 여러 GPU 간 부하를 균형 있게 분산한다. 이는 단순히 GPU를 늘리는 것보다 효율적인 확장성을 제공하며, 대규모 동시 요청에서도 일관된 지연을 유지한다.
Workers AI 통합 모델 카탈로그
Cloudflare Workers AI는 현재 70개 이상의 AI 모델에 대한 단일 API 접점을 제공하며, 오픈소스 카탈로그에 Kimi K2.5, 실시간 음성 모델 등 에이전트 특화 대형 모델들을 추가했다. AI Gateway를 통해 여러 AI 프로바이더를 하나의 엔드포인트로 통합 관리할 수 있어 기업 AI 아키텍처 구성이 단순해진다.
사용성 분석
Cloudflare의 Infire는 AI 스타트업과 기업 개발팀 모두에게 의미 있는 선택지를 제공한다. 직접 GPU 클러스터를 구축하지 않고도 Cloudflare의 글로벌 엣지 네트워크를 통해 1조 파라미터급 모델을 낮은 지연으로 서빙할 수 있다는 점이 핵심 가치다. Workers AI API는 표준적인 REST 인터페이스를 제공하므로 기존 애플리케이션에 통합하기 쉽다. 단, 현재 최신 독점 모델(GPT-5.5, Claude Opus 4.7 등)은 지원하지 않으며 오픈소스 모델 중심이다.
장단점
장점
- 1조 파라미터급 LLM을 GPU 8대로 구동하는 획기적 하드웨어 효율
- Cloudflare의 글로벌 엣지 네트워크로 전 세계 저지연 서빙 가능
- 70개 이상 AI 모델의 단일 API 접점으로 관리 복잡성 감소
- Unweight 압축으로 GPU 메모리 15~22% 절감
- Rust 기반 Infire 엔진으로 고성능·안전한 추론 구현
단점
- GPT-5.5, Claude Opus 4.7 등 최신 독점 모델 미지원
- 기술 세부 내용이 공개됐으나 Workers AI 일반 사용자의 직접 체감 영향 제한적
- 가격 정보와 구체적인 SLA 수치 공개 부족
전망
Cloudflare의 행보는 AI 인프라 시장에서 AWS, Azure, GCP와 경쟁하는 독자적 포지셔닝 전략으로 볼 수 있다. 특히 엣지 네트워크 기반의 저지연 LLM 서빙은 실시간 음성 AI, IoT, 모바일 애플리케이션 등 지연에 민감한 AI 워크로드에서 차별화 요소가 된다. Disaggregated Prefill 아키텍처와 Unweight 압축 기술은 업계 표준으로 확산될 가능성이 있으며, 오픈소스 커뮤니티에도 영향을 줄 것으로 예상된다.
결론
Cloudflare Infire는 LLM 추론 비용과 하드웨어 요구사항을 획기적으로 낮추는 기술적 진보다. AI 서비스를 전 세계에 저렴하고 빠르게 배포하려는 개발팀과 기업에게 Workers AI는 주목할 만한 옵션이다. 독점 모델 미지원이 아쉽지만, 오픈소스 LLM 생태계가 빠르게 성숙하는 현재, 엣지 기반 LLM 추론의 실용성은 점차 높아지고 있다.
장점
- 1조 파라미터급 LLM을 GPU 8대로 구동하는 하드웨어 효율 혁신
- 글로벌 엣지 네트워크 기반으로 전 세계 어디서나 저지연 LLM 서빙 가능
- 70개 이상 AI 모델을 단일 API로 통합 관리해 개발 복잡성 감소
- 정확도 손실 없는 15~22% 가중치 압축으로 GPU 비용 절감
단점/한계
- GPT-5.5, Claude Opus 4.7 등 최신 독점 모델 미지원
- Unweight 압축 기술의 상세 구현 및 오픈소스 여부 미공개
- 구체적인 API 가격과 성능 SLA 수치 공개 부족
참고 자료
댓글0개
주요 기능/특징
1. Disaggregated Prefill 아키텍처: 입력 처리와 출력 생성을 별도 하드웨어에서 분리 실행해 처리량과 지연 동시 최적화 2. Infire 커스텀 추론 엔진: Rust로 작성, GPU 다중 관리 최적화, 빠른 모델 시작 시간 실현 3. Unweight 가중치 압축: 정확도 손실 없이 모델 가중치 15~22% 압축, GPU 메모리 절감 4. Kimi K2.5(1T 파라미터) H100 8대 구동: 1조 파라미터 모델의 현실적 운용 가능성 입증 5. Workers AI 통합: 70개 이상 AI 모델 단일 API 접근, AI Gateway로 멀티 프로바이더 관리
핵심 인사이트
- Disaggregated Prefill은 LLM 추론 효율화의 새 표준이 될 가능성이 있다
- 1조 파라미터 모델을 GPU 8대로 실행하는 것은 대형 모델의 접근성을 크게 높이는 이정표다
- Cloudflare는 이 기술로 AWS Bedrock, Azure AI, GCP Vertex AI와의 경쟁 구도를 형성하고 있다
- Rust 기반 추론 엔진 선택은 성능과 메모리 안전성을 동시에 확보하는 엔지니어링 철학을 보여준다
- 글로벌 엣지 네트워크 기반 LLM 서빙은 실시간 AI 음성·에이전트 애플리케이션의 가능성을 확장한다
- Unweight 압축 기술의 오픈소스화 여부에 따라 업계 파급력이 결정될 것이다
- 단일 API로 70개 이상 모델을 지원하는 전략은 AI 개발자 생태계 허브로 성장하려는 의도다
이 리뷰가 유용했나요?
공유하기
관련 AI 리뷰
Anthropic·OpenAI 동시에 엔터프라이즈 AI 조인트벤처 출범: 컨설팅 산업 겨냥
2026년 5월 4일 Anthropic과 OpenAI가 각각 대형 사모펀드와 손잡고 엔터프라이즈 AI 조인트벤처를 발표했다. Anthropic은 15억 달러, OpenAI는 100억 달러 규모로 기업 AI 전환 시장을 공략한다.
Meta, 8,000명 해고: AI에 $1,150억 쏟아부으며 인력 10% 감축
Meta가 2026년 5월 20일부터 전체 인력의 10%인 8,000명을 해고한다. AI 인프라에 연간 $1,150억을 투자하는 동시에 인건비를 절감하는 구조조정의 일환이다.
Snap, AI 도입으로 1,000명 해고: AI가 코드의 65% 작성, 인력 구조조정 가속
Snap이 2026년 4월 15일 전체 직원의 16%인 약 1,000명을 해고한다고 발표했다. AI가 신규 코드의 65% 이상을 생성하고 있다는 것이 주요 이유로, AI로 인한 대규모 감원의 상징적 사례가 됐다.
Resolve AI Labs 출범: 프로덕션 AI의 빠진 조각을 채우는 $40M 베팅
Resolve AI가 2026년 4월 16일 $40M 시리즈 A 익스텐션과 함께 Resolve AI Labs를 공식 출범했다. 범용 LLM이 다루지 못하는 프로덕션 환경 특화 도메인 모델 개발이 핵심이며, Meta에서 Llama 파인튜닝을 이끈 연구자가 랩을 맡는다.
