의류 AI 가상모델 광고는 실제로 어떻게 만들어지나 — 워크플로, 슬롭이 나는 이유, 그리고 따라 할 수 있는 기법

"AI로 가상모델 광고를 만들 수 있다"는 말은 이제 새롭지 않습니다. 진짜 질문은 "그게 실제로 어떻게 만들어지고, 왜 대부분은 어색한 결과가 나오는가"입니다. 이 글은 의류·패션 브랜드 입장에서 가상모델 광고의 실제 제작 흐름을 분해하고, 의류 고유의 난제(로고·패턴·핏·색상 보존)와 슬롭(slop)이 생기는 원인, 그리고 직접 적용할 수 있는 개선 기법과 아직 남은 한계까지 정리합니다.
1. 실제 워크플로: 옷 사진 한 장에서 영상까지
대표적인 가상모델 도구의 일반적인 흐름은 네 단계로 볼 수 있습니다. 각 단계에 '직접 할 수 있는' 입력·검수 포인트를 같이 적었습니다.
- 의류 이미지 업로드 — 핏 추론에는 평면 누끼 컷보다 마네킹/고스트 마네킹 컷이 유리합니다. 정면·측면·디테일(로고·심·단추) 3컷을, 단색 배경의 고해상도로 올리면 옷의 형태와 드레이프가 더 잘 보존됩니다.
- 모델·포즈·배경 선택 — 모델 프리셋(외형), 포즈, 스튜디오·거리 같은 배경을 고릅니다. 모델 체형이 옷의 의도된 핏(오버핏·슬림 등)과 맞는지 먼저 보세요.
- 착용 컷 생성 — 그 옷을 입은 모델 이미지가 만들어집니다(도구에 따라 수 초~수십 초). 여기서 일반 i2i보다 옷 영역을 보존(garment-preserving)하거나 마스킹·인페인팅으로 고정하는 접근이 디테일 유지에 유리합니다. 생성 직후 로고·패턴·단추 개수·핏을 원본과 곧바로 대조하세요.
- 이미지 → 영상 확장 — 채택한 착용 컷을 그대로 first frame으로 넣어 모션을 입히면 숏폼 클립이 됩니다(image-to-video). 모션 프롬프트는 LEAN하게 — 과다 묘사가 오히려 옷·손의 왜곡을 부릅니다.
여기까지는 누구나 할 수 있습니다. 그래서 "이제 누구나 가상모델 광고를 만든다"는 말은 절반만 맞습니다. '한 장을 뽑는 것'과 '그 얼굴을 캠페인 전체에 계속 쓸 수 있게 만드는 것'은 전혀 다른 작업이기 때문입니다.
2. 왜 대부분 'AI 티'가 나나: 슬롭은 도구가 아니라 일관성의 문제다
2025년 광고판에서 가장 빠르게 번진 단어가 'AI 슬롭(slop)'입니다. 숫자로 보면 분위기가 분명합니다.
- 'AI 슬롭' 언급은 2025년 한 해 +200% 늘었고, 그중 82%가 부정적이었습니다.
- 약 6,000명 미국 소비자 설문에서 AI 생성 광고에 대한 감정은 부정 39% 대 긍정 18% — 부정이 두 배 이상이었습니다.
이 통계는 슬롭 담론 전반의 수치로, 가상모델 광고 품질과의 직접 인과라기보다 시장 분위기의 방증으로 읽는 게 정확합니다. 그래도 원인 진단에는 일관됩니다. 슬롭은 도구가 약해서가 아니라 일관성을 관리하지 않아서 생깁니다. 셀프 생성에서 흔한 증상은 세 가지입니다.
- 얼굴 드리프트 — 컷마다 같은 모델인데 미세하게 다른 사람처럼 보입니다(눈 간격·턱선·피부 톤이 흔들림).
- 톤 불일치 — 조명·색감·무드가 컷마다 제각각이라 한 캠페인처럼 묶이지 않습니다.
- 동질화 — 다들 같은 프리셋·같은 프롬프트를 쓰니 결과물이 서로 닮습니다. 실제로 도구 도입 브랜드의 86%가 "경쟁사와 닮아간다"고 우려한다는 조사 결과도 있습니다(결과 측정치가 아니라 인식 지표).
한 가지 맥락을 덧붙이면, 생성량 자체는 폭발하고 있습니다. Google은 Performance Max/AI Max를 통해 2025년 4분기에만 광고 에셋을 약 7천만 개 생성(전년 대비 3배)했습니다. 제작 시간은 70~90% 줄고 볼륨은 5~10배 늘었습니다. 즉 누구나 '많이' 만들 수 있게 됐기 때문에, 차별화는 양이 아니라 일관성과 톤에서 나옵니다.
3. 도구 현실: 무엇을 어디에 쓰나 (2026)
하나의 도구로 모든 걸 해결하려 하면 오히려 품질이 떨어집니다. 강점이 다르기 때문에 단계별로 나눠 쓰는 게 현실적입니다. 아래는 2026년 6월 기준 정리입니다(Veo 3.1은 2026년 1월 공개).
| 도구 | 강점 | i2v / 길이·해상도 | 비용·접근 | 잘 맞는 용도 |
|---|---|---|---|---|
| Veo 3.1 | 4K · 네이티브 오디오 · 레퍼런스/퍼스트-라스트 프레임 제어 | i2v 지원 · 4K | 상대적 고 | 마무리 품질, 시작·끝 프레임 고정 컷 |
| Kling 2.6 | 최대 2분 연속 · 립싱크에 특히 강함 · 비용 효율 | i2v 지원 · 최대 2분 | 상대적 저(비용 효율) | 말하는 모델, 긴 호흡의 컷, 물량 대비 단가 |
| Sora 2 | 짧은 임팩트 (지역·시기에 따라 가용성 변동) | 최대 25초 | 가용성 변동 — 대체 도구 준비 | 짧은 훅/숏폼 한 컷 |
| Runway | 편집 · 세밀한 제어 | 편집·보정 중심 | 상대적 중 | 생성 후 보정·합성 보조 |
핵심 원칙은 "한 도구 = 한 역할"입니다. 시작·끝 프레임을 지정해 모델 동작을 통제해야 하면 Veo의 프레임 제어를, 모델이 제품을 설명하며 말해야 하면 Kling의 립싱크를, 짧은 훅 컷이면 Sora를 쓰는 식입니다. 단, 도구를 늘리면 비용·계정·러닝커브와 일관성 관리 부담이 함께 커집니다. 소규모라면 1~2개로 시작해 필요할 때 확장하세요.
4. 잘 되게 하는 실제 기법: 직접 적용 가능한 3가지
여기가 이 글의 핵심입니다. 비싼 도구가 아니라 운영 방식이 결과를 가릅니다. 다음 세 가지는 오늘 바로 적용할 수 있습니다.
① 전속 얼굴을 reference로 '고정'한다
가장 흔한 실수가 컷마다 모델을 새로 생성하는 것입니다. 그러면 얼굴이 매번 흔들립니다. 절차는 이렇습니다.
- 전속 얼굴 1장을 고품질로 확정합니다.
- 그 인물의 캐릭터 시트를 만듭니다 — 정면·3/4·측면 각도에, 무표정과 미소를 여러 장 확보해 라이브러리화합니다.
- 매 컷마다 이 reference 이미지를 입력으로 강제합니다(예: Veo의 레퍼런스 제어).
주의할 점: 영상 생성 도구에서 'seed 고정'은 동일 인물을 보장하지 못합니다. 동일성을 만드는 메커니즘은 seed가 아니라 reference 이미지 고정입니다. 검증은 간단합니다 — 두 컷을 나란히 놓고 눈 간격·턱선·헤어라인을 사람이 대조하면 됩니다. 옷은 시즌마다 바뀌어도, 얼굴은 바뀌지 않아야 합니다.
② 톤 가이드를 문서로 만들고 모든 컷에 똑같이 적용한다
아래 6항목을 한 번 적어 두고, 매 프롬프트 끝에 같은 순서로 append하세요. 한 캠페인 안에서 톤 키워드가 일정해야 컷들이 '한 시리즈'로 묶이고, 이것이 동질화(다른 브랜드와 닮아짐)를 막는 가장 값싼 방법이기도 합니다.
| 항목 | 기입 예시 |
|---|---|
| 조명 | 키/필/방향, 색온도 (예: 소프트 자연광, 측면 키, 5200K) |
| 컬러 팔레트 | 주조색 HEX 2~3개 + 채도 레벨 (예: #F2E8DC·#3A3A3A, 채도 낮춤) |
| 렌즈/구도 | 초점거리 느낌, 앵글 (예: 50mm 느낌, 아이레벨) |
| 무드 형용사 | 3개 (예: 미니멀·차분·따뜻함) |
| 배경 규칙 | 일관 배경 (예: 단색 베이지 스튜디오) |
| 후보정 룩 | 필름/디지털 그레이딩 (예: 가벼운 필름 톤) |
여기에 negative 키워드(왜곡, 여분 손가락, 깨진 텍스트 등)를 함께 넣어 두면 슬롭을 한 단계 줄일 수 있습니다.
③ 발행 전 체크리스트로 사람이 검수한다
생성물은 그럴듯해 보여도 결함이 자주 섞입니다. '한 번 본다'가 아니라 PASS/FAIL 게이트로 고정하세요.
- 손/손가락 개수·교차 자연성
- 옷 로고·패턴·단추 정합(원본 대조)
- 핏·주름의 자연성
- 얼굴 드리프트 — 전속 reference와 대조
- 텍스트/타이포 깨짐
- 컬러 정확도 — 생성 컬러가 실제 제품 색과 일치하는지
원칙은 단순합니다 — 판단은 사람, 반복 생산은 AI. 이 분업이 일관성을 지키는 마지막 관문입니다. 실제로 도구를 바꿔 가며 테스트했을 때 결정적 변수는 늘 도구가 아니라 '얼굴 고정 + 톤 일관 + 사람 검수' 쪽이었습니다.
5. 일관성 예시와 셀프 체크



▲ 같은 reference로 고정한 동일 모델 — 카테고리가 바뀌어도 같은 인물
위 세 가지가 지켜지면 동일한 가상모델이 스킨케어 → 코스메틱 → 패션 → 테크로 카테고리를 바꿔도 같은 인물로 인식됩니다. 옷과 제품, 배경이 전부 달라져도 얼굴·눈매·피부 톤·전체 무드가 흔들리지 않습니다. 본인 결과가 정말 일관적인지 확인하려면, 두 컷을 나란히 놓고 다음을 육안 대조하세요.
- 눈 간격·동공 거리
- 헤어라인·가르마
- 피부 톤/언더톤
- 치아·미소 모양
- 전체 색온도
하나라도 어긋나면 reference를 다시 고정하면 됩니다. 이렇게 하면 컷이 수십, 수백 장으로 늘어도 하나의 시리즈로 묶을 수 있습니다. 참고로 버추얼 모델은 사람 모델 대비 약 25배 저렴하고, 실존 인물에서 발생하는 사생활·스캔들 이슈에서 자유로우며, 24시간 운영이 가능합니다. 실제 운영 사례로는 현대 Kenza Layli(8개국 실시간 현지화), L'Oréal Kyra(1억뷰·인게이지먼트 5%), LG 래아킴 등이 있습니다.
6. 아직 어려운 것 / 알려진 한계
'잘 되게 하는 법'만큼 '아직 안 되는 것'을 아는 게 중요합니다. reference 고정으로도 막지 못하는 실패와 우회책입니다.
- 복잡한 로고·텍스트는 여전히 깨집니다 → 생성 후 합성·후보정으로 우회.
- 손/손가락은 i2v 모션에서 자주 붕괴합니다 → 모션을 LEAN하게, 손 클로즈업은 회피.
- 색 시프트 — 생성 컬러가 실제 제품 색과 달라질 수 있습니다 → 컬러 그레이딩으로 맞춤.
- reference 고정도 100%는 아닙니다 → 생성 N장 중 합격 1장을 고르는 채택률 운영을 전제로 두세요.
요약
| 단계 | 흔한 실수(슬롭) | 되게 하는 법 |
|---|---|---|
| 의류 업로드 | 평면 누끼 1컷 | 마네킹 정면·측면·디테일 3컷, 단색 고해상도 |
| 모델 생성 | 컷마다 새로 생성 → 얼굴 흔들림 | 전속 얼굴 캐릭터 시트를 reference로 고정·재사용 |
| 톤 | 컷마다 색감·조명 제각각 | 6항목 톤 가이드 → 전 컷 동일 순서 append |
| 도구 | 한 도구로 전부 처리 | 용도별 분업(Veo·Kling·Sora·Runway), 소규모는 1~2개 |
| 발행 | 생성물 그대로 게시 | 로고·핏·손·얼굴·컬러 체크리스트 게이트 |
정리하면, AI 가상모델 광고의 성패는 어떤 도구를 쓰느냐가 아니라 얼굴을 reference로 고정하고, 톤을 일관되게 유지하고, 사람이 검수하느냐에 달려 있습니다. 이 세 가지는 도구를 안 바꿔도 오늘 바로 적용할 수 있습니다.
핵심 한 줄: 슬롭과 광고를 가르는 건 도구가 아니라 '일관성'입니다. 더 깊이 들어가고 싶다면 HumanLabAI의 LUMINA 운영 사례를 참고하세요.