Nemotron-Labs Diffusion: 토큰 생성 병목을 바꾸는 확산 언어모델

NVIDIA가 Hugging Face에 공개한 Nemotron-Labs Diffusion은 일반적인 autoregressive LLM의 병목을 다른 방식으로 풀려는 시도입니다. 기존 LLM은 대부분 왼쪽에서 오른쪽으로 한 토큰씩 생성합니다. 안정적이고 단순하지만, 새 토큰 하나를 만들 때마다 모델 forward가 필요합니다. 지연 시간이 중요한 서비스, batch size가 작아지는 대화형 워크로드, GPU 메모리 대역폭에 막히는 운영 환경에서는 이 구조가 비용 문제로 바로 이어집니다.

출처: Hugging Face Blog, “Towards Speed-of-Light Text Generation with Nemotron-Labs Diffusion”, 2026-05-23.

무엇이 새로 나온 것인가

Nemotron-Labs Diffusion은 diffusion language model, 즉 DLM 계열의 오픈 모델 제품군입니다. NVIDIA는 3B, 8B, 14B 텍스트 모델과 8B vision-language model을 공개했고, base 모델과 instruction-tuned chat variant를 함께 제공합니다. 텍스트 모델은 NVIDIA Nemotron Open Model License로 공개됐고, 학습 코드는 Megatron Bridge framework의 diffusion recipe를 통해 확인할 수 있습니다.

핵심은 “확산 모델이 텍스트를 한 번에 여러 토큰 단위로 초안 생성하고, 여러 refinement step을 거치며 고친다”는 점입니다. 이미지 diffusion에서 노이즈를 조금씩 제거하듯, 텍스트에서도 여러 토큰을 병렬로 만들고 점진적으로 다듬습니다. 이 방식은 두 가지 장점이 있습니다. 첫째, 현대 GPU의 병렬 처리 능력을 더 잘 활용할 수 있습니다. 둘째, 이미 만든 토큰을 되돌아보고 수정할 수 있습니다. autoregressive 모델은 한 번 낸 토큰이 뒤에 계속 영향을 주기 때문에 초반 실수가 전파되기 쉽습니다.

물론 이것이 기존 LLM을 당장 대체한다는 뜻은 아닙니다. 실무에서 중요한 것은 compatibility입니다. Nemotron-Labs Diffusion은 하나의 모델 안에서 autoregressive mode, diffusion mode, self-speculation mode를 제공합니다. 즉 기존 causal LM처럼 동작하게 할 수도 있고, diffusion 방식으로 빠르게 생성하게 할 수도 있으며, diffusion이 초안을 만들고 autoregressive decoding이 검증하는 형태로 쓸 수도 있습니다.

성능 수치가 말하는 것

공개 글에서 NVIDIA는 Nemotron-Labs Diffusion 8B가 Qwen3 8B 대비 평균 정확도 1.2% 개선을 보였다고 설명했습니다. 속도 쪽에서는 tokens per forward pass, 즉 TPF 기준으로 diffusion mode가 AR 모델보다 2.6배 높고, self-speculation은 linear 방식에서 6배, quadratic 방식에서 6.4배까지 올라간다고 제시했습니다. SGLang 통합 설명에서는 B200에서 speedbench dataset 기준 self-speculation이 약 865 tok/s, autoregressive baseline 대비 약 4배라고 언급합니다.

이 수치를 볼 때 조심할 점이 있습니다. tokens per second는 하드웨어, batch size, prompt 길이, sampling 설정, KV cache, serving framework에 따라 크게 달라집니다. 따라서 “우리 서비스도 4배 빨라진다”고 받아들이면 안 됩니다. 하지만 방향성은 분명합니다. 한 토큰씩 확정하는 구조만으로는 GPU를 끝까지 쓰기 어렵고, draft-verify 또는 block refinement 방식이 대화형 추론 비용을 줄이는 중요한 축이 될 수 있습니다.

실무 개발자에게 더 중요한 질문은 “어떤 워크로드에 먼저 붙일 수 있는가”입니다. diffusion mode는 긴 creative writing보다 latency-sensitive summarization, code completion draft, template 기반 문서 생성, 짧은 답변 생성처럼 빠른 초안이 중요한 작업에 먼저 테스트할 만합니다. self-speculation은 temperature 0 기준 AR과 lossless하게 맞추는 방향을 내세우므로, correctness를 크게 희생하지 않고 속도를 얻을 가능성이 있습니다.

기존 추론 스택과의 연결 지점

Nemotron-Labs Diffusion은 SGLang 지원을 예고했습니다. 공개 글 기준으로 main branch 통합이 진행 중이며, 설정 한 줄로 ar_mode, FastDiffuser, LinearSpec 같은 방식을 선택하는 구조를 설명했습니다. 이 점이 중요합니다. 연구 모델이 아니라 운영 모델이 되려면 serving framework에서 배치, 캐시, streaming, metrics, autoscaling과 연결되어야 합니다.

개발팀이 당장 확인할 것은 세 가지입니다. 첫째, 현재 사용 중인 serving stack이 SGLang, vLLM, TGI, TensorRT-LLM 중 무엇인지 확인합니다. 둘째, diffusion decoding을 켰을 때 streaming UX가 어떻게 달라지는지 봅니다. 여러 토큰을 block 단위로 다듬는 방식은 사용자에게 보이는 출력 타이밍이 기존 streaming과 다를 수 있습니다. 셋째, 품질 평가를 “평균 점수”만 보지 말고 failure case 중심으로 합니다.

예를 들어 코드 생성 서비스라면 pass@1만 볼 게 아니라 syntax error, dependency hallucination, 테스트 실패, 보안 취약 패턴을 따로 측정해야 합니다. 문서 요약 서비스라면 factual consistency, 숫자 누락, 출처 왜곡을 봐야 합니다. diffusion 모델이 빠르더라도 오류 유형이 운영상 치명적이면 production 경로가 아니라 draft 경로에만 넣는 게 맞습니다.

비용 관점에서 보는 적용 전략

LLM 비용은 모델 가격표만으로 결정되지 않습니다. latency, GPU utilization, batch 구성, cache hit, retry율이 함께 비용을 만듭니다. Autoregressive 모델은 token-by-token 구조 때문에 batch size가 낮은 대화형 트래픽에서 GPU utilization이 떨어질 수 있습니다. Nemotron-Labs Diffusion이 노리는 지점도 여기입니다. 여러 토큰을 병렬로 처리하고 refinement step 수를 조절하면 inference budget을 상황별로 바꿀 수 있습니다.

서비스 운영에서는 세 단계로 나누는 편이 안전합니다. 첫째, offline benchmark입니다. 기존 모델과 같은 prompt set, 같은 max token, 같은 temperature로 latency와 품질을 비교합니다. 둘째, shadow traffic입니다. 실제 사용자 요청을 복제해 응답은 사용자에게 보여주지 않고 내부 평가만 합니다. 셋째, partial rollout입니다. 낮은 위험의 기능부터 일부 트래픽에 적용합니다.

특히 self-speculation은 “빠른 draft + AR verification” 구조라서 기존 speculative decoding과 비교해야 합니다. 이미 작은 draft model을 써서 speculative decoding을 하고 있다면, Nemotron 방식의 장점은 같은 checkpoint 안에서 draft와 verify를 처리할 수 있다는 점입니다. 반면 serving framework 성숙도와 디버깅 난이도는 단점이 될 수 있습니다.

개발자가 바로 해볼 평가 설계

가장 간단한 평가는 100~300개 representative prompt set을 만드는 것입니다. 여기에는 짧은 질의, 긴 문맥 요약, 코드 수정, JSON 출력, 한국어 답변, edge case를 섞습니다. 각 요청마다 기존 모델의 latency, output token 수, 오류 여부, 사람이 매긴 품질 점수를 기록합니다. 그 다음 Nemotron-Labs Diffusion을 AR mode, diffusion mode, self-speculation mode로 나눠 같은 평가를 돌립니다.

평가표에는 평균만 넣지 마세요. p50, p95 latency를 분리해야 합니다. 사용자는 평균이 아니라 느린 요청에서 이탈합니다. 또한 retry율을 반드시 넣어야 합니다. 빠르게 답했지만 JSON schema를 자주 깨면 전체 비용은 오히려 올라갑니다. 마지막으로 GPU metrics를 같이 봐야 합니다. tokens/sec만 높아도 GPU memory, utilization, queue time이 악화되면 의미가 줄어듭니다.

실행 체크리스트

기존 워크로드를 chat, summarization, code, extraction, JSON generation으로 분류한다.
각 분류별 100개 이상 평가 prompt와 기대 조건을 만든다.
Nemotron-Labs Diffusion을 AR, diffusion, self-speculation 세 모드로 따로 측정한다.
평균 latency가 아니라 p50, p95, p99와 retry율을 함께 본다.
streaming UX가 block refinement 방식과 충돌하지 않는지 확인한다.
correctness가 중요한 기능은 shadow traffic 후 partial rollout으로 제한한다.
SGLang 통합 상태, 모니터링 지표, rollback 경로를 먼저 준비한다.

Nemotron-Labs Diffusion의 가치는 “새로운 모델이 또 나왔다”가 아니라, 텍스트 생성 병목을 모델 구조와 serving 방식 양쪽에서 다시 생각하게 만든다는 점입니다. 지금 당장 모든 서비스를 바꿀 필요는 없지만, GPU 비용이 큰 팀이라면 평가 큐에 올릴 이유는 충분합니다.