HumanLabAI

HUMANLAB R&D

실험을 기록하고
운영 기준으로 바꿉니다.

생성형 영상, 이미지, 에이전트, 보이스, 3D 실험을 실제 브랜드 운영에 적용 가능한 기준으로 검증한 기술 노트입니다.

TECH BENCHMARKS

실무 투입 가능성을 기준으로 정리합니다.

랩 노트는 모델 성능을 자랑하기 위한 글이 아니라 어떤 제작/운영 상황에 실제로 쓸 수 있는지 판단하기 위한 기록입니다.

제품 사진 딱 1장으로 광고 영상 만드는 법 (촬영 0원)
PRODUCTION READYGEN_VIDEO2026-06-18

제품 사진 딱 1장으로 광고 영상 만드는 법 (촬영 0원)

스튜디오·모델·삼각대 없이 제품 사진 1장만으로 움직이는 광고 영상을 만드는 실제 파이프라인. 누끼→I2V 모션→BGM까지 단계별 정리하고, 어떤 AI 영상 모델이 제품 형태를 안 망가뜨리는지 명시했습니다.

기술 리포트 보기->

스마트스토어 상세페이지에 영상 하나 넣으려고 스튜디오 잡고, 모델 부르고, 조명 세팅하다 견적서 받고 포기한 적 있으신가요. 그런데 지금 셀러들이 쓰는 방식은 다릅니다. 제품 사진 딱 1장을 AI에 넣으면 제품이 회전하고, 빛이 흐르고, BGM이 깔린 6초짜리 광고 클립이 나옵니다. 촬영비 0원, 모델비 0원. 단, 아무 모델에나 넣으면 멀쩡하던 제품 라벨이 외계어로 바뀌고 뚜껑이 녹아내립니다. 이 글은 제품을 안 망가뜨리면서 사진 1장을 광고 영상으로 끝내는 실제 파이프라인을 단계별로 정리한 것입니다.

제품 사진 딱 1장으로 광고 영상 만드는 법 (촬영 0원)

왜 "사진 1장"이 영상이 되는가 — I2V의 원리

핵심 기술은 I2V(Image-to-Video, 이미지→비디오)입니다. 텍스트로 영상을 처음부터 생성하는 T2V와 달리, I2V는 당신이 넣은 사진을 첫 프레임으로 고정하고 그 뒤 몇 초를 움직임으로 채웁니다. 즉 제품의 모양·색·로고는 당신 사진 그대로 유지되고, AI는 "그다음에 어떻게 움직일지"만 상상하는 거죠.

그래서 입력 사진의 품질이 결과의 80%를 결정합니다. 흐릿하거나 배경이 지저분한 사진을 넣으면 영상 내내 그 단점이 따라다닙니다. 좋은 소식은, 입력용 사진 한 장을 다듬는 것도 AI로 1분이면 된다는 점입니다.

전체 파이프라인 4단계 (입력 1장 → 완성 영상)

실제로 우리가 제품 광고를 뽑을 때 도는 순서는 이렇습니다. 각 단계는 길어야 1~3분입니다.

단계하는 일쓰는 도구 유형소요
1. 누끼 + 보정배경 제거, 깨끗한 배경 합성, 해상도 업이미지 생성/편집 AI (nano-banana 류)1분
2. I2V 모션다듬은 1장을 첫 프레임으로 6초 영상화I2V 영상 모델 (Kling 2.6)2~3분
3. 보이스/자막나레이션·카피 음성, 자막 얹기TTS (ElevenLabs 류)1분
4. BGM + 합성배경음악 깔고 컷 이어붙이기음악 생성 (Suno 류) + 편집2분

전부 합쳐 10분 안쪽. 익숙해지면 5분입니다.

1단계 — 누끼와 "입력용 한 장" 만들기

가지고 있는 제품 컷 중 정면이 잘 보이고 핀이 맞은 사진을 고릅니다. 그다음 이미지 편집 AI에게 시킵니다.

  • 배경 제거(누끼) 후 단색 또는 깔끔한 그라데이션 배경으로 교체
  • 그림자·반사 자연스럽게 추가 (제품이 공중에 떠 보이면 싸 보임)
  • 로고·라벨 글자가 선명하게 보이도록 디테일 유지
  • 가로 16:9 또는 세로 9:16으로 캔버스 정리 (어디에 올릴지 미리 결정)

여기서 가장 중요한 원칙: 이 사진은 "예쁜 사진"이 목적이 아니라 "AI가 움직이기 좋은 첫 프레임"이 목적입니다. 제품이 화면 가운데 충분히 크게, 잘릴 부분 없이 들어가 있어야 합니다. 제품이 프레임 끝에 걸려 있으면 모션 단계에서 형태가 깨질 확률이 높습니다.

2단계 — I2V 모션: 제품을 망가뜨리지 않는 모델 고르기

여기가 진짜 갈리는 지점입니다. 같은 사진을 넣어도 모델에 따라 결과가 천지차이입니다. 우리가 실제 제품 광고로 여러 모델을 돌려본 결론을 솔직하게 적습니다.

모델제품 충실도특징제품 광고 추천
Kling 2.6 (I2V)★★★★★입력 프롬프트를 가장 충실히 따름, 제품 형태·라벨 보존 우수가장 안정적 (1순위)
Seedance★★★★모션 자연스럽고 빠름, 단순 회전·줌에 강함보조용으로 양호
Veo 계열★★★영상미는 좋으나 프롬프트를 무시하고 제품에 없던 기계 작동 장면을 지어냄제품 광고엔 비추천

핵심 교훈: 영상미가 화려한 모델일수록 "창작 욕심"을 부려서 당신 제품을 멋대로 변형합니다. 멀쩡한 화장품 뚜껑이 열렸다 닫히거나, 라벨 글씨가 가짜 영어로 바뀌는 사고가 여기서 납니다. 제품 광고는 화려함보다 충실도입니다. 그래서 우리는 제품 I2V에 Kling 2.6을 1순위로 씁니다.

모션 프롬프트는 욕심내지 말고 단순하게. 이런 동사 1~2개면 충분합니다.

  • "제품이 천천히 360도 회전한다" (정석)
  • "카메라가 제품 쪽으로 천천히 줌인한다" (시선 집중)
  • "부드러운 빛이 제품 표면을 왼쪽에서 오른쪽으로 훑는다" (고급스러움)
  • "제품 뒤로 입자/물방울이 천천히 떠오른다" (음료·화장품)

긴 문장으로 온갖 묘사를 넣을수록 오히려 모션이 부자연스러워집니다. 짧고 명확한 동작 하나가 정답입니다.

3·4단계 — 보이스, BGM, 그리고 이어붙이기

영상 클립이 나왔으면 광고처럼 들리게 마감합니다.

  • 나레이션/카피 보이스: TTS로 한 줄 카피를 깔면 단번에 "광고" 느낌. 한국어 자연스러운 음성이 잘 나옵니다. 자막을 같이 얹으면 무음으로 보는 SNS 환경에도 대응됩니다.
  • BGM: 음악 생성 AI에 "고급스러운 미니멀 비트, 15초" 식으로 장르만 주면 저작권 걱정 없는 트랙이 나옵니다. 영상 전체에 BGM은 1개로 통일해야 깔끔합니다 (컷마다 음악 바뀌면 산만).
  • 합성: 6초 클립이 짧으면 2~3개를 만들어 크로스페이드로 이어붙입니다. 회전 컷 → 줌인 컷 → 로고 컷 순서가 무난한 광고 문법입니다.

흔한 실수 체크리스트 (이것만 피해도 절반은 성공)

  • 입력 사진이 저해상도 → 영상 전체가 뭉개짐. 먼저 업스케일.
  • 제품이 프레임에 꽉 차거나 잘림 → 모션 시 형태 붕괴. 여백을 두자.
  • 화려한 모델로 제품 I2V → 라벨·형태 변형 사고. 충실도 높은 모델로.
  • 모션 프롬프트가 너무 김 → 어색한 움직임. 동작 1개만.
  • BGM 여러 개·자막 없음 → 산만 + 무음 환경 무대응. BGM 1개 + 자막 필수.
  • 한 번에 OK 기대 → 같은 설정으로 2~3회 돌려 가장 안 망가진 컷을 채택하는 게 정상 워크플로.
사진 1장을 광고 영상으로 바꾸는 이 과정 전체를 우리가 대신 돌려드리기도 합니다. 직접 해보다 막히면 편하게 물어보세요.

관련 가이드

포토샵 누끼 작업 시대는 끝났다 — AI 제품 합성 5분 컷
PRODUCTION READYGEN_IMAGE2026-06-18

포토샵 누끼 작업 시대는 끝났다 — AI 제품 합성 5분 컷

배경 제거부터 새 배경 합성, 자연스러운 그림자까지 AI로 5분 만에 끝내는 제품컷 워크플로. 합성 티 나는 5가지 실수와 회피 체크리스트까지 정리했다.

기술 리포트 보기->

디자이너에게 제품컷 30장 누끼 따달라고 맡기면 하루가 꼬박 간다. 펜툴로 외곽선 한 땀 한 땀, 머리카락·털·투명 유리는 또 따로. 그런데 지금 쇼핑몰 셀러들이 쓰는 AI 합성 워크플로는 제품 1장당 5분이다. 배경 제거, 새 배경에 앉히기, 바닥 그림자까지 한 번에. 문제는 속도가 아니다. "합성 티"다. 어설프게 만들면 소비자가 0.5초 만에 "이거 합성이네" 알아채고 신뢰가 깨진다. 누끼 작업이 5분으로 줄어든 진짜 이유와, 합성 티 안 나게 만드는 법을 정리했다.

포토샵 누끼 작업 시대는 끝났다 — AI 제품 합성 5분 컷

왜 펜툴 누끼가 한물갔나 — AI가 바꾼 3단계

과거 제품 합성은 ①펜툴로 외곽선 따기 → ②레이어 분리 → ③새 배경에 얹기 → ④그림자 직접 그리기, 네 단계 전부 수작업이었다. 지금 AI 워크플로는 이 흐름을 이렇게 압축한다.

  • 배경 제거(Segmentation): AI가 제품 외곽을 픽셀 단위로 자동 인식. 머리카락·털·반투명 유리처럼 펜툴이 가장 약했던 영역을 오히려 더 잘 딴다.
  • 새 scene 합성: "대리석 위 자연광 카페 배경" 같은 텍스트 한 줄로 제품을 새 환경에 앉힌다. 별도 배경 사진 촬영이 필요 없다.
  • 그림자·반사 생성: 광원 방향을 읽어 바닥 그림자와 접지(contact shadow)를 자동으로 깔아준다. 합성의 80%는 여기서 판가름 난다.

5분 컷 워크플로 — 실제 순서

셀러가 책상에서 막 찍은 폰 사진 한 장으로 시작한다고 가정하자. 순서는 다음과 같다.

단계작업도구 예시소요
1원본 보정 (밝기·각도)휴대폰 기본 보정30초
2배경 제거(누끼)Remove.bg / Photoroom10초
3새 배경 프롬프트 합성nano-banana / GPT Image 21~2분
4그림자·반사 자연화Photoroom / Firefly1분
5해상도 업스케일·검수업스케일러1분

핵심은 3단계에서 제품 자체는 절대 다시 생성하지 않는 것이다. 제품 형태·로고·색을 AI가 새로 그리면 실물과 달라져 반품 사유가 된다. 제품은 누끼 그대로 두고 배경만 생성하는 i2i(image-to-image) 방식이어야 한다.

합성 티 나는 5가지 실수 — 회피 체크리스트

아무리 빨라도 이 다섯 가지를 놓치면 소비자가 바로 알아챈다. 출고 전 반드시 체크하라.

  • ① 그림자 방향 불일치: 제품 자체 빛은 왼쪽인데 바닥 그림자는 오른쪽으로 깔리는 경우. → 새 배경 프롬프트에 원본과 같은 광원 방향을 명시한다. ("soft light from upper-left")
  • ② 접지 그림자 누락: 제품이 바닥에 붙은 부분에 어두운 음영이 없으면 "공중에 뜬" 느낌이 난다. → contact shadow를 꼭 추가한다. 합성 티의 1순위 원인.
  • ③ 외곽 흰 테두리(헤일로): 누끼 경계에 1px 흰 선이 남는 현상. 어두운 배경에 얹으면 도드라진다. → 누끼 단계에서 외곽 1~2px 침식(erode) 처리.
  • ④ 색온도 불일치: 제품은 차가운 형광등 색인데 배경은 따뜻한 노을. 둘이 안 어울린다. → 합성 후 제품에 배경 색온도를 살짝 입혀 톤을 맞춘다.
  • ⑤ 원근·스케일 오류: �이블 위 컵인데 컵이 테이블보다 커 보이는 비율 붕괴. → 배경의 시점(eye-level)과 제품 각도를 맞춘다.

고급 팁 — 반사·재질이 어려운 제품

유리병, 금속 화장품 용기, 보석처럼 주변을 반사하는 제품은 가장 까다롭다. 원본에 찍힌 반사가 새 배경과 안 맞으면 즉시 들통난다.

  • 유리·투명 제품: 누끼 시 내부 투명도를 살리는 모드를 쓰고, 배경을 통과해 비치게 합성한다.
  • 금속·유광 표면: 반사가 강한 부분은 새 배경의 색을 살짝 입혀 "주변이 비치는" 느낌을 재현한다.
  • 그림자 강도: 스튜디오 톤이면 옅게, 야외 직사광 톤이면 진하고 선명하게. 배경 분위기에 그림자 농도를 맞춘다.

언제 AI를 쓰고, 언제 안 쓰나

모든 컷을 AI로 돌릴 필요는 없다. 판단 기준은 단순하다.

  • AI가 유리한 경우: 대량 제품컷, 빠른 A/B 배경 테스트, 시즌별 무드 교체, 촬영 예산 없는 1인 셀러.
  • 실촬영이 나은 경우: 정확한 색 재현이 생명인 화장품·식품 대표 컷, 질감이 매출을 좌우하는 패브릭·가죽 클로즈업.

실무에서는 대표 컷 1~2장만 실촬영, 나머지 변형 컷은 AI 합성으로 가는 하이브리드가 가장 효율적이다.

제품컷 30장이 쌓여 막막하다면, 원본 1장으로 배경 변형 테스트부터 가볍게 돌려보세요. 5분이면 감이 옵니다.

관련 가이드

숏폼 하루 1개도 버겁다면 — AI로 한 번에 30개 찍어내는 구조
PRODUCTION READYGEN_VIDEO2026-06-18

숏폼 하루 1개도 버겁다면 — AI로 한 번에 30개 찍어내는 구조

원본 스크립트 1개를 변주·자막·보이스로 분기시켜 한 번에 30개 숏폼을 만드는 AI 대량생산 파이프라인. '슬롭'이 안 나오게 거르는 4단계 품질 가드까지 실전 구조로 정리했다.

기술 리포트 보기->

숏폼 채널 운영해 본 사람은 안다. 진짜 고통은 '하나 잘 만들기'가 아니라 '계속 만들기'다. 알고리즘은 일주일에 3개 올리던 채널과 매일 올리는 채널을 다르게 대접한다. 그런데 혼자서, 혹은 2~3명 팀으로 매일 영상을 뽑는 건 현실적으로 불가능에 가깝다. 그래서 대부분 한 달 불타오르다 조용히 멈춘다. 여기서 발상을 뒤집어 보자. 좋은 원본 1개를 만든 다음, 그걸 30개로 분기시키는 거다. 새로 30개를 쓰는 게 아니라, 검증된 뼈대 하나에서 자막·후크·보이스·비주얼만 바꿔 30개의 '다른 영상'을 찍어낸다. 이게 AI 숏폼 대량생산의 핵심이고, 진짜 어려운 건 양이 아니라 '슬롭(slop) 안 나게 거르는 법'이다.

숏폼 하루 1개도 버겁다면 — AI로 한 번에 30개 찍어내는 구조

왜 '1 → 30 분기'가 '30개 새로 쓰기'를 이기는가

매일 새 아이디어로 영상을 짜면 품질이 들쭉날쭉하고, 뭐가 먹혔는지 학습이 안 된다. 반대로 검증된 원본 하나를 변주하면 변수 통제가 가능해진다. 후크만 다른 5개를 올려서 어떤 후크가 터지는지 보고, 그 후크로 또 변주를 돌리는 식이다. 콘텐츠 제작이 '감'에서 '실험'으로 바뀐다.

  • 학습 가능: 같은 본문에 후크만 다르면, 조회수 차이의 원인이 '후크'로 좁혀진다.
  • 속도: 0에서 쓰는 게 아니라 슬롯을 채우는 작업이라 1개당 제작 시간이 1/5로 준다.
  • 일관성: 채널 톤·자막 스타일·길이가 자동으로 통일된다. 브랜드가 생긴다.
  • 재활용: 한 원본이 인스타 릴스·유튜브 쇼츠·틱톡 3채널 × 여러 변형으로 퍼진다.

분기축 4개 — 어디를 바꿔야 '다른 영상'이 되나

무작정 30개로 늘리면 표절 수준의 복붙이 된다. 플랫폼은 '재업로드'를 싫어한다. 그래서 '의미 있게 다른' 변주를 만드는 축을 정해야 한다. 실전에서 쓰는 분기축은 보통 이 4개다.

분기축무엇을 바꾸나도구 예시
후크(첫 3초)같은 본문, 다른 도입 문장·첫 컷LLM 카피 변주 + nano-banana 썸네일
자막 스타일강조 단어·폰트·등장 타이밍Whisper 싱크 + 자막 템플릿
보이스/톤남/여, 차분/하이텐션, 한/영ElevenLabs 보이스 라이브러리
비주얼(B-roll)배경 영상·모델컷·제품 앵글Veo 3.1 / Kling 2.6 I2V

축 하나당 변형 2~3개만 잡아도 조합으로 수십 개가 나온다. 후크 5 × 보이스 2 × 자막 3 = 30. 본문은 한 번만 검증하면 된다.

파이프라인 6단계 — 한 번에 굴리는 구조

대량생산은 '한 번의 큰 작업'이 아니라 '작은 작업의 자동 연쇄'다. 단계를 쪼개야 어디서 막혔는지 보이고, 막힌 단계만 고쳐 다시 돌릴 수 있다.

  1. 원본 스크립트 1개: 후크-본문-마무리 3블록 구조로 작성. 이건 사람이 직접 검수.
  2. 변주 생성: LLM에게 "본문은 유지, 후크 5종·CTA 3종으로 분기" 요청. 의미가 변하지 않게 가드.
  3. 보이스 합성: ElevenLabs로 변형별 내레이션 일괄 생성. 톤·속도 프리셋 고정.
  4. 비주얼/B-roll: Veo·Kling으로 배경 컷 생성하거나 기존 클립 라이브러리에서 매칭.
  5. 자막 싱크: Whisper로 보이스를 받아 자동 타임코드 → 자막 템플릿에 주입.
  6. 조립·렌더: 보이스+B-roll+자막+BGM을 템플릿에 얹어 일괄 출력.

핵심은 2~5단계가 자동이고, 1번과 마지막 검수만 사람이 잡는다는 점이다. 그래야 30개가 현실이 된다.

'슬롭 안 나게' — 4단계 품질 가드

여기가 진짜다. 자동화하면 반드시 '슬롭(영혼 없는 양산형 쓰레기)'이 섞인다. AI 보이스 발음 깨짐, 자막 오타, 입과 안 맞는 립싱크, 어색한 B-roll, 똑같이 들리는 30개. 이걸 사람이 30개 다 눈으로 보면 자동화의 의미가 없다. 그래서 게이트를 단계별로 깐다.

  • 게이트 1 — 스크립트 검수(사람): 원본 1개만은 무조건 사람이 읽는다. 여기 틀리면 30개가 다 틀린다. 이 단계만큼은 절대 생략 금지.
  • 게이트 2 — 텍스트 자동 검사: 변주 후 금지어·과장 표현·오타·길이 초과를 룰로 거른다. 의미가 원본에서 벗어난 변형은 자동 폐기.
  • 게이트 3 — 미디어 자동 검사: 보이스 무음 구간·클리핑, 자막-오디오 싱크 오차(0.3초 초과 시 리젝), B-roll 해상도·길이 미달을 기계가 1차 컷.
  • 게이트 4 — 샘플 휴먼 리뷰: 30개 전수가 아니라 대표 3~5개만 사람이 본다. 같은 템플릿이라 하나가 깨끗하면 나머지도 대개 깨끗하다. 문제 패턴이 보이면 해당 축만 재생성.

이 4단계가 '대량'과 '쓰레기'를 가르는 분기점이다. 가드 없이 양만 늘리면 채널이 죽고, 가드만 있고 양이 없으면 알고리즘이 안 밀어준다. 둘을 같이 가져가야 한다.

처음 시작할 때 현실적인 체크리스트

30개를 한 번에 노리지 마라. 구조를 먼저 검증하고 숫자를 키운다.

  • ✅ 원본 1개로 후크만 다른 3개 변형부터. 어떤 후크가 먹히는지 본다.
  • ✅ 보이스·자막·BGM 프리셋을 고정한다. 매번 새로 고르면 자동화가 안 된다.
  • ✅ B-roll은 처음엔 생성보다 라이브러리 재사용이 빠르고 안정적이다.
  • ✅ 게이트 3(미디어 자동검사)을 가장 먼저 구축하라. 여기서 슬롭 80%가 걸린다.
  • ✅ 변형끼리 너무 비슷하면 플랫폼이 묶는다. 후크·썸네일은 확실히 다르게.
한 번에 30개가 막막하다면, 검증된 원본 1개 + 자동 게이트 3·4번부터 세팅해 보세요. 양은 그다음 문제입니다. (직접 굴려보고 막히는 단계가 생기면 그때 도구를 붙이면 됩니다.)

관련 가이드

Veo·Kling·Seedance 직접 돌려봤다 — 제품 광고엔 결국 이게 답
PRODUCTION READYGEN_VIDEO2026-06-18

Veo·Kling·Seedance 직접 돌려봤다 — 제품 광고엔 결국 이게 답

같은 프롬프트로 Veo 3.0·Kling·Seedance를 실측 비교했다. 화질이 가장 좋은 모델이 제품 광고에선 가장 위험한 이유와, '프롬프트 충실도 vs 화질 vs 비용' 표로 정리한 제품 I2V 추천 결론.

기술 리포트 보기->

화질이 제일 좋은 모델이 제품 광고에선 제일 위험하다 — 같은 제품 사진, 같은 프롬프트를 Veo·Kling·Seedance에 똑같이 넣고 수십 번 돌려본 결과 내린 결론이다. 멋진 4K 시네마틱 영상을 뽑아주는 모델일수록, 정작 "제품 뚜껑이 위로 열린다"는 한 줄을 무시하고 제멋대로 기계를 작동시키는 장면을 만들어냈다. 반대로 가장 수수해 보이던 모델이 프롬프트를 글자 그대로 지켰다. 셀러·소상공인 입장에서 영상 광고의 핵심은 "예뻐 보이는 것"이 아니라 "내 제품이 내가 시킨 대로 움직이는 것"이다. 어떤 모델이 그걸 해내는지, 실측 데이터로 정리했다.

Veo·Kling·Seedance 직접 돌려봤다 — 제품 광고엔 결국 이게 답

왜 "화질 좋은 모델"을 그냥 믿으면 안 되나

AI 영상 모델 비교 콘텐츠 대부분이 "누가 더 시네마틱하냐"만 따진다. 그런데 제품 광고에서 진짜 평가 기준은 따로 있다. 우리가 실제로 본 차이는 이렇다.

  • 제품 광고 영상은 "정확성" 싸움이다. 일반 영상은 분위기만 그럴듯하면 되지만, 제품 영상은 제품의 형태·색·동작이 사진과 1:1로 맞아야 한다. 한 군데라도 일그러지면 광고가 아니라 사고다.
  • 모델은 "안 시킨 일"을 한다. 텍스트 프롬프트만 강한 모델은 입력 사진을 참고하긴 하지만, 자기 상상력을 더 신뢰한다. "조용히 놓여 있다"고 써도 갑자기 버튼이 눌리고 부품이 돌아간다.
  • I2V(Image-to-Video)와 T2V(Text-to-Video)는 다른 게임이다. 제품 광고는 거의 항상 "내 제품 사진에서 출발"하는 I2V다. T2V 벤치마크 점수가 높아도 I2V에서 제품을 망가뜨리면 의미가 없다.

같은 프롬프트로 3모델 실측 — 무슨 일이 일어났나

동일한 제품 컷 한 장과 동일한 동작 지시문을 넣고 Veo 3.0, Kling(2.6 I2V와 3.0), Seedance를 돌렸다. 결과는 화질 순서와 정반대였다.

  • Kling 2.6 I2V — 프롬프트 충실도가 가장 높았다. "제품이 이렇게 움직인다"고 쓰면 딱 그만큼만 움직였다. 화면을 과하게 꾸미지 않고 입력 사진의 제품 형태를 그대로 유지했다. 제품 광고에서 가장 안정적.
  • Veo 3.0 — 영상 자체의 질감은 훌륭하지만 프롬프트를 자주 무시했다. 지시하지 않은 기계 작동 장면, 예상 못 한 동작을 스스로 만들어냈다. 분위기는 좋은데 "내 제품 영상"이 아니게 된다.
  • Kling 3.0 — 멀티샷·시네마틱엔 강하지만, 제품 I2V에선 2.6보다 프롬프트를 덜 지켰다. 인물 감정 표현 같은 데선 오히려 3.0이 낫지만, 제품 정확성은 2.6이 위였다.
  • Seedance — 모션이 부드럽고 비용 효율이 좋은 편이지만, 제품 형태 유지의 일관성에서 Kling 2.6만큼의 신뢰를 주진 못했다.

핵심 교훈: "프롬프트 무시" 문제는 제품 광고 I2V에 한정된 현상이다. 인물 감정이나 분위기 영상에선 Veo·Kling 3.0의 자유로운 해석이 장점이 되기도 한다. 즉 "최고 모델"은 없고, 용도별 정답이 있다.

프롬프트 충실도 vs 화질 vs 비용 — 한눈에

제품 I2V 관점에서 정리한 비교표다. 별이 많을수록 좋다(★★★★★ = 5점). 비용은 우리 워크플로 기준 한 컷 체감 단가다.

모델프롬프트 충실도(제품 I2V)화질·시네마틱제품 형태 유지체감 비용한 줄 평
Kling 2.6 I2V★★★★★★★★★★★★★★약 ₩600/컷제품 광고 1순위
Kling 3.0★★★★★★★★★★★중상인물·멀티샷 강점
Veo 3.0★★★★★★★★★★높음분위기 좋으나 제멋대로
Seedance★★★★★★★★★★중간모션 부드럽고 가성비

※ 별점은 "제품 사진을 망가뜨리지 않고 시킨 대로 움직이는가" 기준이다. 일반 시네마틱 영상이나 인물 영상으로 평가하면 순위가 달라질 수 있다.

실패를 줄이는 프롬프트·셋업 체크리스트

모델 선택만큼 중요한 게 입력 방식이다. 같은 모델도 셋업에 따라 결과가 갈린다. 우리가 실측으로 확인한 것들.

  • 프롬프트는 짧고 명확하게(LEAN). 모션이 부자연스러운 진짜 원인은 "과다 묘사"인 경우가 많았다. 형용사를 잔뜩 붙일수록 모델이 자기 해석을 끼워 넣는다. "제품이 천천히 회전한다" 정도로 동작 하나만 또렷하게.
  • 지시하지 않은 동작은 "금지"로 명시. 기계가 멋대로 작동하는 걸 막으려면 "버튼 누르지 않음, 부품 정지 상태 유지" 같은 네거티브 지시가 효과적이었다.
  • 레퍼런스 이미지는 적당히 다운스케일. 4K 고해상도 렌더 원본(수십 MB)을 그대로 ref로 넣으면 일부 API가 "파일 미지원"으로 거부한다. 2000px 수준으로 줄여 넣으면 통과한다. 출력 화질엔 영향 없다.
  • 제품 광고는 무조건 I2V로. T2V로 "제품을 묘사"하게 하면 비슷하지만 다른 제품이 나온다. 내 제품 사진에서 출발해야 형태가 보존된다.
  • 재시작·중단 주의. 생성이 진행 중일 때 서버를 재시작하면 폴링이 끊겨 영구 로딩 + 크레딧 손실로 이어질 수 있다. 한 컷 돌리는 동안은 건드리지 말 것.

그래서 결론 — 용도별 추천

실측 기준으로 정리하면 이렇다.

  • 제품 단독 광고(I2V): Kling 2.6 I2V. 프롬프트 충실도·형태 유지·비용 삼박자가 현재 가장 안정적이다.
  • 인물·모델컷·감정 표현: Kling 3.0. 멀티샷에서 인물 감정 cue를 모션으로 반영한다.
  • 분위기·무드 영상(제품 정확성 덜 중요): Veo 3.0. 자유로운 해석이 오히려 장점.
  • 가성비 모션이 필요한 일반 컷: Seedance. 부드러운 움직임과 합리적 단가.

한 모델로 다 하려 하지 말고, "이 컷은 제품 정확성이냐, 분위기냐"부터 정하는 게 비용과 재작업을 가장 크게 줄여준다.

제품 사진 한 장으로 어떤 모델이 내 제품에 맞는지 빠르게 테스트해 보고 싶다면, 위 체크리스트만 적용해도 실패율이 확 줄어든다. 더 깊은 셋업이 필요할 때 가볍게 문의 주세요.

관련 가이드

상세페이지 이미지 외주 못 맡길 때 — AI로 비주얼 통째로 뽑기
PRODUCTION READYGEN_IMAGE2026-06-18

상세페이지 이미지 외주 못 맡길 때 — AI로 비주얼 통째로 뽑기

히어로컷·사용씬·디테일컷·인포그래픽을 한 톤으로 묶어 AI로 생성하는 실전법. 톤이 깨지는 진짜 원인과 일관성 락(lock) 기법을 체크리스트와 표로 정리했다.

기술 리포트 보기->

상세페이지 디자인 외주 견적 받아봤다면 안다. 한 제품에 히어로컷·사용씬·디테일컷·인포그래픽까지 풀세트면 80만~200만 원, 수정은 2~3회 제한에 톤 한 번 어긋나면 다시 처음부터. 신제품 5개를 동시에 올려야 하는 셀러한테는 외주가 답이 아니다. 그런데 여기서 대부분이 저지르는 진짜 실수는 "AI로 못 한다"가 아니라, 컷을 한 장씩 따로따로 뽑는다는 것이다. 그래서 히어로컷은 따뜻한 톤, 사용씬은 푸른 톤, 디테일컷은 또 다른 채도 — 스크롤 내릴 때마다 제품이 다른 물건처럼 보인다. 외주가 비싼 이유도, AI가 싸구려처럼 보이는 이유도 결국 같다. 일관성이다. 이 글은 컷을 따로 뽑지 않고 한 톤으로 묶어내는 실전 순서를 다룬다.

상세페이지 이미지 외주 못 맡길 때 — AI로 비주얼 통째로 뽑기

왜 컷마다 톤이 깨지는가 — 진짜 원인 4가지

"AI 이미지는 들쭉날쭉해"라는 말의 90%는 아래 4가지에서 나온다. 모델 탓이 아니라 입력을 매번 바꾸기 때문이다.

  • 제품 자체가 컷마다 미묘하게 다르다 — 텍스트 프롬프트만으로 매번 생성하면 로고 위치, 뚜껑 색, 비율이 조금씩 변한다. 같은 제품이 아닌 게 된다.
  • 조명·색온도가 컷마다 리셋된다 — 한 컷은 5500K 주광, 다음 컷은 3000K 텅스텐. 사람 눈은 이 차이를 "싸구려 합성"으로 즉시 읽는다.
  • 배경 재질·바닥 그림자가 안 통일된다 — 대리석 → 원목 → 무광 회색이 한 페이지에 섞이면 세트가 아니라 짜깁기다.
  • 카메라 화각·렌즈 감이 제각각이다 — 광각 왜곡 컷과 망원 압축 컷이 섞이면 같은 스튜디오에서 찍은 느낌이 사라진다.

핵심은 '레퍼런스 락' — 한 장을 기준으로 전부 묶기

해법은 단순하다. 텍스트로 매번 새로 그리지 말고, 제품 기준 컷 한 장(앵커 이미지)을 먼저 확정한 뒤 그 한 장을 모든 컷의 레퍼런스로 물려주는 것이다. nano-banana나 Seedream 4.0 같은 모델은 이미지 입력(i2i)을 받아 제품 형태와 색을 유지한 채 배경·구도만 바꿀 수 있다. 순서는 이렇다.

  1. 앵커 컷 1장 확정 — 제품 정면, 깨끗한 배경, 정확한 색·로고. 이 한 장에 시간을 가장 많이 써라. 여기가 흔들리면 전부 흔들린다.
  2. 톤 기준 문장 고정 — "soft diffused daylight, 5500K, matte light-gray seamless background, eye-level, 50mm lens"처럼 조명·배경·화각을 한 문장으로 박아두고 모든 컷에 똑같이 붙인다.
  3. 앵커를 레퍼런스로 넣고 컷별로 변주 — 사용씬·디테일컷·각도 변경 컷을 만들 때 항상 앵커 이미지를 함께 입력한다. 제품은 고정, 상황만 바뀐다.
  4. 인포그래픽은 같은 컷을 재활용 — 디테일컷에서 뽑은 이미지 위에 텍스트·수치를 얹는다. 새로 그리지 않으니 톤이 깨질 수가 없다.

컷 종류별 생성 레시피 (한 톤 유지)

한 페이지에 필요한 컷을 역할별로 나누고, 앵커에서 어떻게 파생시키는지 정리했다.

컷 종류역할생성 방식톤 유지 핵심
히어로컷첫인상·구매욕앵커를 i2i로 배경만 프리미엄하게앵커 색·로고 절대 고정
사용씬맥락·신뢰앵커 + 손/공간 합성 (동양인 모델 명시)같은 조명 문장 그대로 붙이기
디테일컷재질·마감 증명앵커 크롭 후 클로즈업 i2i색온도·그림자 방향 동일
인포그래픽스펙·수치 전달디테일컷 재활용 + 텍스트 오버레이새 이미지 생성 금지(재활용)

현장에서 자주 막히는 지점과 해결

  • 로고·라벨 글자가 뭉개진다 — AI가 텍스트를 못 그리는 건 정상이다. 글자가 들어가는 면은 AI로 그리지 말고, 실제 라벨 이미지를 디테일컷 위에 합성·오버레이로 얹어라.
  • 레퍼런스를 넣었는데도 색이 변한다 — 입력 이미지 용량이 과하면(30MB+) 모델이 거부하거나 색을 재해석한다. 레퍼런스는 2000px 안팎으로 줄여 넣고, 최종 출력만 고해상도로 뽑아라.
  • 사용씬에 외국인 모델이 나온다 — 한국 쇼핑몰이면 프롬프트에 "Korean/East Asian" 인종을 명시하지 않으면 기본값이 서구권으로 나온다. 손·피부톤까지 명시하라.
  • 그림자 방향이 컷마다 다르다 — "key light from upper-left"처럼 광원 방향까지 한 문장에 고정하면 그림자가 통일된다.

한 톤인지 셀프 점검 체크리스트

4~6컷을 다 뽑은 뒤, 작은 썸네일로 한 화면에 나란히 놓고 아래를 본다. 한 줄이라도 걸리면 그 컷만 다시.

  • 전체 색온도가 따뜻함/차가움 한쪽으로 통일됐는가
  • 제품의 색·로고·비율이 모든 컷에서 동일한가
  • 배경 재질·바닥 그림자 방향이 같은가
  • 밝기(노출)가 컷마다 튀지 않는가
  • 인포그래픽 폰트·아이콘 스타일이 다른 컷과 어울리는가
혼자 풀세트 묶는 게 버겁다면, 앵커 한 장과 톤 문장만 들고 가볍게 문의 주셔도 됩니다 — 나머지 파생은 어렵지 않습니다.

관련 가이드

진짜 후기보다 진짜 같은 AI UGC 후기 영상 만드는 법
PRODUCTION READYGEN_VIDEO2026-06-18

진짜 후기보다 진짜 같은 AI UGC 후기 영상 만드는 법

가상 인물 아바타와 자연스러운 말투 보이스로 진짜 같은 UGC 후기 영상을 만드는 전체 워크플로와, '광고처럼 안 보이게' 만드는 디테일 체크리스트를 단계별로 정리했습니다.

기술 리포트 보기->

스마트스토어에 후기 영상 하나 올렸더니 전환율이 두 배가 됐다는 셀러 이야기, 한 번쯤 들어보셨을 겁니다. 문제는 그 '진짜 후기 영상'을 구하기가 너무 어렵다는 것. 인플루언서 단가는 부르는 게 값이고, 일반 고객은 영상 찍어달라고 부탁해도 열에 아홉은 거절합니다. 그래서 요즘 셀러들이 조용히 쓰는 방법이 있습니다. AI 가상 인물로 UGC 후기 영상을 만드는 것. 그런데 여기서 90%가 똑같은 실수를 합니다. 너무 예쁘고, 너무 매끄럽고, 너무 '광고 같아서' 사람들이 1초 만에 스킵하는 영상을 만들죠. 진짜 같은 AI 후기 영상은 '잘 만든 영상'이 아니라 '대충 찍은 것처럼 만든 영상'입니다. 이 차이를 만드는 디테일을 정리했습니다.

진짜 후기보다 진짜 같은 AI UGC 후기 영상 만드는 법

UGC가 광고보다 잘 팔리는 진짜 이유

UGC(User Generated Content)는 '사용자가 만든 콘텐츠'라는 뜻이지만, 마케팅에서 진짜 핵심은 형식이 아니라 신뢰의 출처입니다. 브랜드가 "이 제품 좋아요"라고 하면 광고지만, 옆집 사람처럼 보이는 누군가가 세면대 앞에서 "이거 진짜 한 달 써봤는데요…"라고 하면 그건 추천입니다. 우리 뇌는 이 둘을 완전히 다르게 받아들입니다.

그래서 AI UGC를 만들 때 목표는 '광고를 잘 만드는 것'이 아니라 '추천처럼 보이게 하는 것'입니다. 이걸 거꾸로 이해하면 망합니다. 화질을 4K로 뽑고, 조명을 완벽하게 세팅하고, 모델을 잡지같이 예쁘게 만들수록 '추천'이 아니라 '광고'로 분류되어 신뢰가 무너집니다. 핵심 원칙 하나만 기억하세요.

  • 완성도를 올릴수록 광고처럼 보인다. 적당히 거칠어야 진짜처럼 보인다.
  • 시청자는 '제품'을 보러 오지 않는다. '나 같은 사람의 경험'을 보러 온다.
  • 1초 안에 "어, 이거 후기네?"라고 인지시키지 못하면 스킵당한다.

전체 워크플로: 4단계로 끝내기

막상 시작하면 어디부터 손대야 할지 막막합니다. AI UGC 후기 영상은 크게 네 단계로 나뉩니다. 각 단계마다 쓰는 도구가 다르고, 순서를 지켜야 자연스럽게 연결됩니다.

단계하는 일도구 유형핵심 포인트
1. 인물 만들기가상 모델의 얼굴·외모 고정이미지 생성 (nano-banana 등)'인플루언서'가 아닌 '일반인' 얼굴
2. 대본 쓰기후기 멘트 작성텍스트 (LLM)구어체, 망설임, 단점도 한 줄
3. 보이스 입히기자연스러운 말투 음성음성 생성 (ElevenLabs 등)또박또박 금지, 숨소리·속도 변화
4. 립싱크 영상아바타가 말하는 영상 생성영상 생성 (Kling 2.6, Veo 3.1, HyperFrames)핸드헬드 흔들림, 셀카 각도

여기서 비용을 아끼는 팁. 4단계 영상 생성이 가장 비싸므로, 1~3단계를 충분히 다듬은 뒤 마지막에 한 번에 뽑는 게 좋습니다. 대본이나 보이스가 어색한데 영상부터 뽑으면 그 크레딧이 다 날아갑니다.

'광고처럼 안 보이게' 만드는 디테일 7가지

여기가 이 글의 핵심입니다. 같은 도구를 써도 결과물이 천차만별인 이유는 이 디테일을 아느냐 모르느냐의 차이입니다. 하나씩 적용할 때마다 '진짜 같음'이 올라갑니다.

  • 얼굴은 일부러 '평범하게'. AI 이미지는 기본적으로 너무 예쁘게 나옵니다. 프롬프트에 'average-looking', '약간 피곤한', '메이크업 거의 안 한' 같은 표현을 넣어 일반인 톤으로 낮추세요. 모공·잡티가 살짝 보이는 게 오히려 신뢰를 높입니다.
  • 배경은 '집' 또는 '아무 데나'. 스튜디오 배경은 광고 신호입니다. 어수선한 화장대, 부엌 싱크대, 차 안, 침대 위처럼 생활 공간으로 잡으세요.
  • 카메라는 손으로 든 것처럼. 영상 생성 시 'handheld', 'slight shake', 'selfie angle' 프롬프트를 넣어 미세한 흔들림을 만드세요. 삼각대처럼 완벽하게 고정된 화면은 즉시 광고로 인식됩니다.
  • 대본에 '망설임'을 넣으세요. "음…", "뭐랄까", "솔직히 처음엔 반신반의했는데" 같은 군더더기가 진짜처럼 들리게 합니다. 완벽한 문장은 대본을 읽는 광고처럼 들립니다.
  • 단점을 한 줄 인정하세요. "가격이 좀 있긴 한데", "배송이 좀 느렸어요" 같은 작은 단점이 들어가면 신뢰가 급상승합니다. 100% 칭찬은 누가 봐도 광고입니다.
  • 보이스는 '또박또박'을 피하세요. 음성 생성 시 안정성(stability) 값을 낮추고, 속도에 변화를 주세요. 아나운서처럼 깔끔한 발음은 광고 내레이션으로 들립니다. 살짝 빠르거나 끝을 흐리는 게 자연스럽습니다.
  • 자막은 폰트 기본값으로. 디자이너가 만든 예쁜 모션 자막은 광고 신호입니다. 숏폼 앱 기본 자막 스타일(흰 글씨 검은 테두리)이 오히려 UGC처럼 보입니다.

좋은 후기 대본 vs 광고처럼 들리는 대본

대본 한 줄 차이로 전체 영상의 분위기가 갈립니다. 같은 제품, 같은 메시지인데 한쪽은 추천처럼, 한쪽은 광고처럼 들립니다. 직접 비교해보면 감이 옵니다.

광고처럼 들리는 대본 (X)후기처럼 들리는 대본 (O)
"이 제품은 최고의 보습력을 자랑합니다.""건조해서 맨날 각질 일어났는데, 이거 바르고는 좀 덜하더라고요."
"지금 바로 구매하세요!""저는 일단 하나 더 시켰어요. 떨어지면 안 되니까."
"100% 천연 성분으로 안심하고 쓰세요.""성분 찾아봤는데 뭐 그렇게 이상한 건 없더라고요."
"놀라운 효과를 경험하세요!""솔직히 큰 기대 안 했는데 2주쯤 지나니까 어… 좀 달라요."

차이가 보이시나요? 오른쪽은 전부 1인칭 경험이고, 구체적인 상황이 있고, 약간의 군더더기가 섞여 있습니다. 왼쪽은 전부 브랜드의 주장입니다. 대본을 쓸 때 "이 문장을 친구가 카톡으로 보냈다면 자연스러울까?"를 기준으로 잡으세요.

제작 전 5초 자가 점검 체크리스트

영상을 뽑기 전에 이 다섯 가지를 확인하면 크레딧 낭비와 재작업을 크게 줄일 수 있습니다. 하나라도 'X'면 1초 만에 스킵당하는 영상이 나옵니다.

  • ☐ 모델이 '인플루언서'가 아니라 '동네 사람'처럼 보이는가?
  • ☐ 배경이 스튜디오가 아니라 생활 공간인가?
  • ☐ 대본에 망설임·군더더기·작은 단점이 들어갔는가?
  • ☐ 보이스가 아나운서가 아니라 옆사람처럼 들리는가?
  • ☐ 화면이 손으로 든 것처럼 살짝 흔들리는가?

마지막으로, AI UGC는 '진짜 후기를 대체하는 도구'가 아니라 '진짜 후기가 쌓이기 전까지의 마중물'로 쓰는 게 가장 효과적입니다. 실제 고객 후기와 자연스럽게 섞여 들어갈 때 가장 강력하게 작동합니다.

혼자 만들기 막막하다면, 우리가 쓰는 가상 모델·보이스 워크플로를 한 번 구경하러 오셔도 좋습니다.

관련 가이드

광고 BGM·내레이션, 음악 외주 없이 AI로 1시간 만에 끝내기
PRODUCTION READYVOICE_CLONE2026-06-18

광고 BGM·내레이션, 음악 외주 없이 AI로 1시간 만에 끝내기

광고 영상에 깔 BGM과 한국어 내레이션을 AI로 직접 만드는 실전 가이드. 장르 매칭 BGM 생성, 자연스러운 보이스, 영상 싱크, 그리고 가장 중요한 저작권 안전 체크와 어색한 발음 잡는 법까지 정리했습니다.

기술 리포트 보기->

제품 영상은 다 만들었는데 BGM 하나 못 깔아서 며칠째 멈춰 있는 셀러가 의외로 많습니다. 음원 사이트에서 적당한 곡 하나 고르려다 결제하고 보니 "유튜브 광고 사용은 별도 라이선스"라는 깨알 약관에 막히고, 외주 작곡은 한 곡에 수십만 원에 일주일 대기. 그런데 지금은 BGM 30초, 한국어 내레이션 한 단락이면 커피 한 잔 마실 시간에 둘 다 끝납니다. 핵심은 "AI가 만들어준다"가 아니라 저작권 안 걸리게, 발음 안 어색하게, 영상이랑 박자 맞게 뽑는 법을 아는 겁니다. 그 세 가지를 실무 순서대로 정리했습니다.

광고 BGM·내레이션, 음악 외주 없이 AI로 1시간 만에 끝내기

BGM부터: "장르 매칭"이 90%다

AI 음악 생성에서 결과 품질을 가르는 건 긴 프롬프트가 아니라 장르·무드·악기·BPM을 정확한 단어로 박아넣는 것입니다. "좋은 음악 만들어줘"는 100전 100패고, 영상 톤에 맞는 장르를 먼저 정한 뒤 그걸 명시해야 합니다. 광고 유형별로 자주 먹히는 매칭입니다.

영상 톤추천 장르/무드프롬프트에 넣을 키워드
뷰티·패션 (감성)Lo-fi / Dream popwarm, soft synth, 80 BPM, dreamy
테크·가전 (세련)Future bass / Minimalclean, electronic, punchy, 110 BPM
식음료·생활 (밝음)Acoustic pop / Funkupbeat, acoustic guitar, claps, happy
건강·B2B (신뢰)Corporate / Ambientcalm, piano, inspiring, steady
숏폼·UGC (텐션)Trap / Hip-hopenergetic, 808 bass, fast hi-hat

실무 팁 세 가지: ① 가사 없는 인스트루멘탈로 뽑아라(내레이션이 들어갈 자리를 가사가 잡아먹습니다). ② 길이를 영상보다 5초 길게 뽑아서 편집 여유를 남겨라. ③ 한 번에 2~3개 변형을 받아 A/B로 들어보고 고르면 적중률이 확 올라갑니다.

한국어 내레이션: 발음 어색함은 '표기'로 잡는다

AI 보이스의 한국어는 많이 좋아졌지만, 아직도 숫자·영어·전문용어에서 자주 미끄러집니다. "어색하다"는 대부분 모델 탓이 아니라 텍스트를 글자 그대로 읽어버려서 생깁니다. 입력 텍스트를 '소리 나는 대로' 바꿔주는 것만으로 대부분 해결됩니다.

  • 숫자는 한글로 풀어쓰기: "30% 할인" → "삼십 퍼센트 할인", "1+1" → "원 플러스 원". 모델이 "30"을 "삼십"으로 읽을지 "서른"으로 읽을지 헷갈릴 여지를 없앱니다.
  • 영어 브랜드/단어는 한글 음차: "AI" → "에이아이", "USB" → "유에스비", "VITAMIN C" → "비타민 씨".
  • 띄어쓰기와 쉼표로 호흡 제어: 강조하고 싶은 단어 앞뒤에 쉼표를 넣으면 또박또박 끊어 읽습니다. "이 제품은, 단 하나의 차이로, 완성됩니다."
  • 마침표/물음표를 정확히: 억양은 문장부호로 만들어집니다. 평서문 끝을 올리고 싶지 않으면 마침표, 질문 톤은 물음표를 분명히.

그래도 한 단어가 계속 이상하면 그 부분만 따로 생성해서 붙이세요. 30초 내레이션 전체를 다시 뽑는 것보다 문제 문장 하나만 재생성하는 게 훨씬 빠릅니다.

보이스 톤 고르기: '읽는 사람'을 먼저 정한다

같은 대본도 누가 읽느냐에 따라 전혀 다른 광고가 됩니다. 보이스를 고르기 전에 "이 영상의 화자는 누구인가"를 정하면 선택이 빨라집니다.

  • 차분한 중저음 남성/여성 — B2B, 건강기능식품, 신뢰가 핵심인 카테고리. 빠르지 않게, 또박또박.
  • 밝고 빠른 톤 — 숏폼, 생활용품, 가성비 어필. 텐션이 곧 전환율인 영상.
  • 친근한 ASMR형 저속 톤 — 뷰티, 감성 제품. 속삭이듯, 말 사이 간격을 넓게.

대부분의 보이스 합성 툴은 속도(speed)·안정성(stability)·감정 강도 슬라이더를 제공합니다. 광고 내레이션은 안정성을 살짝 높여(흔들림 방지) 시작하고, 너무 기계적이면 조금씩 낮추며 톤을 잡는 게 안전합니다.

영상이랑 박자 맞추기: 싱크의 기본기

BGM과 내레이션을 따로 뽑았으면 이제 영상에 얹을 차례입니다. 외주 없이도 무료 편집툴(캡컷, 다빈치 리졸브 등)에서 다음 순서만 지키면 됩니다.

  1. 내레이션을 기준선으로 깔고, 영상 컷을 말의 호흡에 맞춰 자릅니다. 음악이 아니라 '말'이 영상 길이를 결정합니다.
  2. BGM 볼륨은 -18dB 안팎으로 깔고, 내레이션이 나오는 구간은 BGM을 추가로 살짝 더 줄입니다(더킹). 자동 더킹 기능이 있으면 켜세요.
  3. 오프닝/엔딩은 BGM만 풀로 들리게 비워두면 영상이 훨씬 완성도 있어 보입니다.
  4. BGM이 영상보다 길면 끝부분을 페이드 아웃 1~2초로 자연스럽게 마무리합니다.

저작권: AI로 만들어도 '안전 체크'는 필수

가장 자주 받는 질문이 "AI로 만든 음악·목소리 광고에 써도 되나요?"입니다. 핵심만 짚으면 이렇습니다.

  • 생성형 AI BGM은 도구에 따라 상업적 사용 허용 범위가 다릅니다. 무료/체험 플랜은 상업 사용 불가인 경우가 흔하니, 광고에 쓸 거면 반드시 유료 플랜의 상업 사용·소유권 약관을 확인하세요. "이 곡을 광고에 써도 되는가, 소유권은 누구인가" 두 줄만 약관에서 찾으면 됩니다.
  • 유튜브 Content ID 충돌 주의. 일부 AI 음원은 다른 사람도 똑같이 받을 수 있어, 누군가 먼저 등록하면 내 영상에 클레임이 걸릴 수 있습니다. 가능하면 곡을 변형(편집·믹스)하고, 생성 기록(날짜·플랜)을 캡처해 두세요.
  • 목소리 클로닝은 동의가 생명입니다. 실제 사람 목소리를 학습시킬 거면 본인 동의가 반드시 필요하고, 연예인·타인 목소리 무단 복제는 명백히 위험합니다. 기본 제공 보이스를 쓰는 게 가장 안전합니다.
  • 실제 발매곡과 비슷하게 나왔다면 쓰지 마세요. "왠지 어디서 들어본 멜로디"는 분쟁의 씨앗입니다.

요약하면, AI로 만들었다는 사실보다 어떤 플랜의 어떤 약관으로 만들었느냐가 안전을 결정합니다. 광고용이면 처음부터 유료 상업 라이선스로 시작하는 게 가장 싸게 먹힙니다.

BGM·내레이션 외주에 묶여 영상이 멈춰 있다면, 위 체크리스트로 직접 한 편 만들어보세요. 더 정교한 장르 매칭이나 브랜드 전용 보이스 톤 세팅이 필요하면 그때 가볍게 문의 주셔도 됩니다.

관련 가이드

왜 내 AI 영상은 '딱 봐도 AI'일까 — 슬롭을 없애는 7가지 신호와 교정법
PRODUCTION READYGEN_VIDEO2026-06-18

왜 내 AI 영상은 '딱 봐도 AI'일까 — 슬롭을 없애는 7가지 신호와 교정법

손가락 뭉개짐, 플라스틱 피부, 과한 모션 같은 'AI 티'는 원인이 정해져 있다. 7가지 슬롭 신호를 원인별로 분해하고, 프롬프트와 후처리로 잡는 실전 교정법을 정리했다.

기술 리포트 보기->

똑같은 툴, 똑같은 모델인데 어떤 사람의 AI 영상은 광고로 나가고, 어떤 사람의 영상은 댓글창에 '이거 AI네 ㅋㅋ'가 박힌다. 차이는 운이 아니다. '딱 봐도 AI'라는 느낌은 막연한 감이 아니라 정해진 몇 개의 신호에서 나온다. 손가락이 6개거나, 피부가 플라스틱처럼 번들거리거나, 가만히 있어야 할 배경이 출렁이거나. 사람 눈은 이 신호 중 단 하나만 잡아도 0.3초 만에 '가짜'로 판정한다. 반대로 말하면, 이 신호들만 원인별로 틀어막으면 같은 모델로도 '실사 같다'는 소리를 들을 수 있다. 아래 7가지가 그 체크리스트다.

왜 내 AI 영상은 '딱 봐도 AI'일까 — 슬롭을 없애는 7가지 신호와 교정법

슬롭은 '감'이 아니라 신호다 — 7대 원인 지도

먼저 전체 지도를 보자. AI 영상 티의 90%는 아래 7개 범주 안에 들어간다. 내 영상이 어색하다면, 막연히 다시 뽑지 말고 어느 칸에 걸렸는지부터 찾아야 한다.

신호증상주된 원인1차 해결 레버
손·관절 붕괴손가락 6개, 손목 꺾임, 물건 안 잡힘손이 화면에서 큼 + 손 동작 지시구도(손 작게/숨기기)
플라스틱 피부번들거림, 모공 없음, 밀랍 인형'beautiful/perfect' 과다, 조명 평면프롬프트 + 후처리 grain
과한 모션다 움직임, 출렁임, 모핑모션 강도 과다, 묘사 과다모션값 ↓ + LEAN 프롬프트
물리 법칙 위반중력·천·머리카락 어색, 워터마크식 떨림긴 길이, 복잡한 동선길이 단축(4~5초)
죽은 눈·표정눈 초점 없음, 무표정, 깜빡임 없음감정 cue 부재감정·시선 명시
텍스처 일렁임벽돌·천·머리카락이 끓는 듯고주파 디테일 + 모션배경 단순화 + 디노이즈
오버샤픈 룩HDR 과다, 채도 폭발, 너무 깨끗모델 기본 톤, 0 후처리컬러그레이딩 + 입자

1. 손과 관절 — 가장 먼저 들키는 곳

AI가 가장 못 그리는 부위는 여전히 손이다. 손가락 개수, 손톱, 물건을 쥐는 관절의 각도는 모델이 자주 무너뜨린다. 핵심은 '잘 그려달라'고 비는 게 아니라 구도로 회피하는 것이다.

  • 손을 화면에서 작게. 손이 프레임의 30% 이상을 차지하면 붕괴 확률이 급증한다. 미디엄샷·웨이스트샷이 클로즈업보다 안전하다.
  • 손 동작을 굳이 시키지 말 것. '제품을 집어 든다' 같은 정밀 동작은 손가락-물체 접촉 프레임에서 깨진다. 꼭 필요하면 손이 이미 쥔 상태에서 시작(첫 프레임)하고 잡는 순간은 컷으로 넘긴다.
  • 가려라. 주머니, 테이블 아래, 화면 밖, 소매로 손을 자연스럽게 숨기면 리스크 자체가 사라진다.
  • i2v로 못박기. 손이 멀쩡한 이미지를 먼저 만들고(nano-banana 등) 그 이미지를 image-to-video 첫 프레임으로 쓰면, 텍스트만으로 뽑는 것보다 손 보존율이 훨씬 높다.

2. 플라스틱 피부 — 'beautiful'을 지우는 게 시작

밀랍 인형 같은 피부는 두 가지가 겹쳐 생긴다. 프롬프트의 미화 단어와 평면 조명이다. 모델은 'beautiful', 'perfect skin', 'flawless', '4K ultra HD'를 넣으면 모공과 잡티를 지워 플라스틱으로 만든다.

  • 미화어를 뺀다. 'beautiful woman' 대신 'a woman in her 30s, natural skin texture, visible pores, soft skin'처럼 질감 단어를 넣는다. 한국 모델이면 'East Asian, natural Korean skin'을 명시.
  • 조명을 입체로. 'flat lighting'은 피부를 매끈하게 만든다. 'soft window light from the side', 'subtle shadow on the face'처럼 측광·그림자를 지시하면 질감이 살아난다.
  • 후처리에서 입자(grain)를 얹는다. 렌더가 너무 깨끗하면 무조건 가짜로 보인다. 영상 편집에서 35mm film grain을 5~12% 얹는 것만으로 '실사 느낌'이 확 올라간다. 이건 거의 모든 AI 영상에 무조건 적용해야 하는 단계다.

3. 과한 모션 — 모션 부자연의 진짜 범인은 '과다 묘사'

가장 흔한 오해: 모션이 어색한 건 모델이 못해서가 아니라, 프롬프트에 너무 많은 동작을 욱여넣어서다. 한 클립에 '걸으면서 돌아보고 웃으며 머리를 넘기고 손을 든다'를 넣으면 모델은 전부를 절반씩 흉내 내다 녹아버린다.

  • LEAN 프롬프트. 한 클립당 핵심 동작 1개. '천천히 카메라 쪽으로 고개를 돌린다' 정도면 충분하다. 나머지는 컷을 나눠라.
  • 모션 강도값을 내린다. Kling의 모션 강도, Seedance·Veo의 다이내믹 옵션을 중간 이하로. 광고 제품샷은 특히 '거의 멈춘 듯한' 미세 모션이 더 고급스럽다.
  • 배경은 고정. 사람만 움직이고 벽·간판·소품은 가만히 있어야 한다. 'static background, only the subject moves'를 넣으면 출렁임이 줄어든다.
  • 씬 안에서 끝낸다. 첫 프레임과 끝 프레임을 둘 다 지정해 보간시키면 씬이 서로 녹아드는 모핑이 생긴다. 패널 1장을 독립 컷으로 i2v 돌리고 컷 사이는 크로스페이드로 잇는 편이 안정적이다.

4. 길이와 물리 — 5초의 법칙

클립이 길수록 물리 법칙이 무너진다. 천이 비현실적으로 흐르고, 머리카락이 따로 놀고, 걸음걸이가 미끄러진다. 모델은 길게 갈수록 다음 프레임을 '상상'해야 하고, 그 상상이 누적되며 어긋난다.

  • 4~5초로 끊어라. 한 클립을 8초로 뽑아 다 쓰려 하지 말고, 좋은 4초를 여러 개 뽑아 편집으로 잇는다. 슬롭은 대개 후반부 2~3초에서 터진다 — 앞부분만 살려 써도 된다.
  • 복잡한 동선 금지. 카메라가 돌고 인물도 움직이는 이중 모션은 물리 붕괴의 지름길. 카메라 고정 + 인물 미세 모션이 가장 안전하다.
  • 중력 거스르는 동작 피하기. 점프, 던지기, 머리카락 휘날림 클로즈업 같은 건 모델이 약하다. 정적인 순간을 노려라.

5. 죽은 눈과 텍스처 일렁임 — 디테일의 함정

두 가지 미세 신호가 영상의 '리얼함'을 마지막에 결정한다.

  • 죽은 눈. AI 얼굴이 섬뜩한 건 대개 눈 때문이다. 초점 없는 눈, 깜빡임 없음, 무표정. 프롬프트에 'looking directly at camera with warm expression', 'natural blink', 'eyes with catchlight(눈동자 반사광)'를 넣어 시선·감정을 명시하라. 감정 cue를 주면 모델이 미세 표정을 입힌다.
  • 텍스처 일렁임. 벽돌, 패턴 옷, 잎사귀, 머리카락 같은 고주파 디테일은 모션과 만나면 '끓는' 듯 일렁인다. 배경을 단순한 면(무지 벽, 보케 처리된 배경)으로 바꾸면 즉시 사라진다. 'shallow depth of field, blurred background'가 일렁임 킬러다.
  • 후처리 디노이즈. 그래도 일렁이면 Topaz Video AI 같은 업스케일·안정화 도구로 한 번 통과시키면 미세 떨림이 정돈된다.

6. 오버샤픈 룩 — 마지막 10%는 후처리에서 갈린다

프롬프트를 아무리 잘 짜도, 모델 기본 출력은 채도가 높고 너무 깨끗하다. 이 '디지털 깔끔함'이 바로 AI 티의 정체다. 실제 카메라로 찍은 영상은 약간의 입자, 살짝 빠진 채도, 자연스러운 색온도를 가진다. 후처리 3단계만 거쳐도 체감이 달라진다.

후처리 단계무엇을효과
1. 컬러그레이딩채도 -10~15%, 색온도 살짝 따뜻하게, 대비 약간 낮춤'HDR 광고' 느낌 제거, 자연광 톤
2. 필름 그레인35mm grain 5~12% 오버레이디지털 매끈함 제거, 실사 질감
3. 미세 모션블러빠른 부분에 약한 모션블러'프레임 단위로 또렷한' 부자연스러움 완화

이 세 가지는 프리미어·다빈치·캡컷 어디서든 5분이면 적용된다. AI 영상 잘 뽑는 사람과 못 뽑는 사람의 진짜 차이는 모델이 아니라 이 마무리에 있다.

7. 워크플로로 굳히기 — 매번 통과시키는 체크리스트

위 내용을 매번 떠올릴 필요 없이, 영상 하나 뽑을 때마다 이 순서로 돌리면 슬롭이 구조적으로 줄어든다.

  1. 이미지 먼저(i2v 기본). 손·얼굴이 완벽한 정지 이미지를 먼저 확보하고, 그걸 첫 프레임으로 영상화. 텍스트만으로 뽑는 t2v는 통제력이 떨어진다.
  2. LEAN 프롬프트 1동작. 동작 1개, 배경 고정, 감정·시선 명시, 미화어 제거, 질감 단어 추가.
  3. 4~5초로 짧게, 여러 개. 길게 한 방보다 짧게 여러 개 뽑아 골라 쓴다.
  4. 후처리 3종 세트. 컬러그레이딩 + 그레인 + 미세 모션블러. 예외 없이.
  5. 슬롭 7신호 최종 점검. 손/피부/모션/물리/눈/텍스처/샤픈 — 하나라도 걸리면 그 클립만 다시.

결국 '딱 봐도 AI'를 없애는 건 더 비싼 모델이 아니다. 손은 구도로 피하고, 피부는 미화어를 빼고, 모션은 줄이고, 길이는 짧게, 마무리는 후처리로 굳히는 — 원인별 대응의 누적이다. 이 7가지를 습관으로 만들면, 같은 Kling·Veo로도 결과물의 급이 달라진다.

원인별로 잡아도 손·물리·텍스처가 끝까지 안 잡히는 컷이 있다면, 그건 모델 한계가 아니라 그 컷을 잡는 i2v·후처리 파이프라인 설계의 문제일 때가 많습니다 — 막히는 지점만 가볍게 물어보세요.

관련 가이드

nano-banana로 제품을 어디든 갖다 놓기 — 같은 제품, 100개의 배경
PRODUCTION READYGEN_IMAGE2026-06-18

nano-banana로 제품을 어디든 갖다 놓기 — 같은 제품, 100개의 배경

제품 모양은 그대로 둔 채 배경과 연출만 바꾸는 nano-banana 제품 합성을 실측 예시로 정리했다. 광고용으로 쓸 때 일관성이 깨지는 지점과 그걸 막는 보정 팁까지 담았다.

기술 리포트 보기->

스튜디오 대관 18만 원, 소품 렌탈 7만 원, 반나절 촬영. 그렇게 뽑은 제품 컷 한 장을 두고 "이번엔 화이트 배경 말고 대리석 위에 올려보자"는 말이 나오면 다시 처음부터다. 그런데 제품을 한 번 찍어두기만 하면, 같은 제품을 대리석 위에·카페 테이블 위에·눈 내리는 창가에 갖다 놓는 일을 한 장에 30초로 끝낼 수 있다면? 그게 지금 nano-banana(구글의 이미지 편집 모델, Gemini 계열)가 실제로 하고 있는 일이다. 핵심은 하나다. 제품의 모양·라벨·색은 건드리지 않고 배경과 연출만 갈아끼우는 것. 이게 되는 순간 셀러에게 제품 사진의 경제학이 통째로 바뀐다.

nano-banana로 제품을 어디든 갖다 놓기 — 같은 제품, 100개의 배경

왜 "배경만 바꾸기"가 그렇게 어려웠나

기존 AI 이미지 생성(text-to-image)의 고질병은 제품을 매번 새로 그려버린다는 점이었다. "내 텀블러를 카페에 놓아줘"라고 하면, 텀블러 비슷한 다른 물건을 그려준다. 뚜껑 모양이 바뀌고, 로고가 뭉개지고, 손잡이가 사라진다. 광고에서 이건 치명적이다. 소비자가 받아보는 실물과 사진이 다르면 그건 과장광고이고, 반품과 클레임으로 돌아온다.

nano-banana 류의 이미지 편집(image-to-image) 모델은 접근이 다르다. 당신이 찍은 진짜 제품 사진을 입력으로 받고, "이 물체는 그대로 두고 주변만 바꿔라"는 지시를 따른다. 제품의 픽셀을 보존하려 애쓰기 때문에, 라벨 글씨·색·형태가 살아남을 확률이 훨씬 높다. 이게 "제품 합성"이라 부르는 작업의 본질이다.

실전 워크플로 — 입력 사진이 결과의 80%

결과물 품질은 프롬프트가 아니라 입력 사진이 결정한다. 좋은 소스 한 장을 만들어두면 같은 제품으로 수십 컷을 뽑는다.

  • 깔끔한 누끼 또는 단색 배경: 제품 주변이 복잡하면 모델이 어디까지가 제품인지 헷갈린다. 흰 배경 또는 누끼(배경 제거)가 가장 안정적이다.
  • 정면·약간 위에서: 광고에서 가장 많이 쓰는 각도. 극단적 로우앵글은 합성 시 그림자가 어색해진다.
  • 그림자 정보가 살아있는 원본: 완전 평면 누끼보다, 약한 바닥 그림자가 있는 사진이 새 배경에 더 자연스럽게 앉는다.
  • 고해상도: 라벨 글씨가 또렷할수록 합성 후에도 텍스트가 버틴다. 흐린 입력은 흐린 출력을 부른다.

프롬프트는 의외로 단순하게. "이 제품을 [장소]의 [표면] 위에 놓아라. [조명], [분위기]. 제품의 형태·라벨·색은 그대로 유지." 형태 유지를 명시적으로 박아두는 한 줄이 일관성을 크게 끌어올린다.

한 제품 → 배경별 결과 비교

같은 텀블러 한 장을 넣고 배경 지시만 바꿨을 때, 셀러 입장에서 어디에 쓸 수 있는지 정리하면 이렇다.

배경 연출용도일관성 난이도
화이트 + 부드러운 그림자스마트스토어 대표 썸네일쉬움 (가장 안전)
원목 카페 테이블 + 자연광상세페이지 라이프스타일 컷보통
대리석 + 반사광프리미엄 브랜딩 컷보통 (반사 주의)
야외 자연·눈·해변시즌 기획전 배너어려움 (그림자·빛 방향 틀어짐)
손에 쥔 모델컷사용 장면 어필어려움 (손과 제품 경계 깨짐)

패턴이 보인다. 배경이 단순하고 빛이 균일할수록 제품이 안 망가진다. 반사·투명·금속 재질, 그리고 손이 닿는 합성일수록 검수를 빡세게 해야 한다.

광고에 쓸 때 — 합성이 무너지는 5가지 지점

예쁘게 나왔다고 바로 올리면 안 된다. 광고 컷은 사람들이 확대해서 본다. 실측에서 반복적으로 깨지는 곳은 다음과 같다.

  • 라벨 글씨: 한글·영문 작은 텍스트가 비슷한 모양으로 변형되는 경우가 가장 흔하다. 원본 라벨을 확대해 한 글자씩 대조하라.
  • 그림자 방향: 배경의 광원과 제품 그림자 방향이 어긋나면 "오려붙인 티"가 난다. 가장 많이 잡히는 위화감.
  • 반사·투명 재질: 유리병·금속캔은 새 배경이 표면에 비쳐야 자연스러운데, 이 반사가 어긋나거나 비어버린다.
  • 바닥 접지면: 제품이 표면에 닿는 지점이 붕 떠 보이거나 그림자가 없으면 합성이 들통난다.
  • 색 톤 시프트: 배경 조명에 맞춰 제품 색이 미묘하게 따뜻하게/차갑게 변한다. 브랜드 컬러가 핵심인 제품이면 치명적.

깨졌을 때 보정하는 법

완벽한 한 장을 기대하지 말고, "거의 맞는 한 장 + 부분 보정"으로 가는 게 실무다.

  • 라벨 복구: 합성 결과의 라벨 영역만 원본 라벨로 다시 합성(인페인팅)하거나 포토샵에서 원본 라벨을 덮어씌운다. 가장 안전한 보정.
  • 여러 장 뽑고 고르기: 같은 프롬프트로 4~6장 생성한 뒤 가장 안 깨진 걸 채택. 1장 뽑아 우기지 말 것.
  • 그림자는 프롬프트에 명시: "왼쪽 위 광원, 오른쪽 아래로 부드러운 그림자"처럼 빛 방향을 지정하면 접지 위화감이 줄어든다.
  • 난도 높은 컷은 분리: 손에 쥔 컷·복잡한 야외는 AI 합성 대신 실제 그 한 컷만 촬영하는 게 빠를 때도 많다. AI는 양산형 컷에 몰아 쓰는 게 경제적이다.
  • 최종 색 보정: 브랜드 컬러는 마지막에 원본 HEX 값 기준으로 한 번 맞춰 내보낸다.

그래서 누가 어떻게 쓰면 이득인가

제품 SKU가 많고 시즌마다 배경 분위기를 갈아야 하는 셀러일수록 효과가 크다. 대표 썸네일은 안전한 화이트 합성으로 양산하고, 상세페이지 라이프스타일 컷은 배경만 계절별로 교체한다. 촬영은 제품당 단 한 번, 깔끔한 소스 한 장이면 된다. 반대로 제품이 한두 개뿐이고 그 한 컷의 완성도가 매출 전부를 가르는 경우라면, AI 합성을 초안으로만 쓰고 메인은 실촬영으로 가는 하이브리드가 안전하다.

제품 한 컷을 100개 배경에 앉히는 워크플로를 직접 세팅하기 버겁다면, 무엇부터 양산형으로 돌릴지 한 번 같이 점검해 드릴게요.

관련 가이드

옷 사진만 있으면 모델이 입는다 — AI 가상 피팅 모델컷 만드는 법
PRODUCTION READYGEN_IMAGE2026-06-18

옷 사진만 있으면 모델이 입는다 — AI 가상 피팅 모델컷 만드는 법

상품 컷에 AI 가상 모델을 입혀 모델컷을 뽑는 실전 워크플로. 사이즈·핏·로고가 뭉개지지 않게 잡는 가드 체크리스트와 단계별 프롬프트, 모델 비교표까지 정리했습니다.

기술 리포트 보기->

모델 섭외비 30만 원, 스튜디오 대관 20만 원, 메이크업·헤어 10만 원. 옷 한 벌 모델컷 찍는 데 하루가 통째로 날아갑니다. 그런데 요즘 잘 나가는 스마트스토어 셀러들은 걸이 사진 한 장만 들고 모델컷을 뽑습니다. 사람을 부르지 않고요. 핵심은 "예쁜 모델을 생성"하는 게 아니라 내 옷의 사이즈·핏·로고를 그대로 유지한 채 모델에게 입히는 겁니다. 여기서 90%가 망합니다. 소매가 줄고, 프린트가 뭉개지고, 사이즈가 바뀌죠. 이 글은 그 왜곡을 막는 실전 단계만 짚습니다.

옷 사진만 있으면 모델이 입는다 — AI 가상 피팅 모델컷 만드는 법

1. 시작 전 — 어떤 옷 사진이 "먹히는" 입력인가

입력 사진의 품질이 결과의 80%를 결정합니다. AI는 안 보이는 부분을 상상으로 채우는데, 그 상상이 곧 왜곡입니다. 망하는 입력부터 거르세요.

  • 마네킹/걸이 정면 컷 — 가장 안전. 옷의 실루엣과 핏이 그대로 보임
  • 평면 누끼(고스트 마네킹) — 입체감이 살아있는 누끼면 OK, 완전 평면 펼침은 핏 추정이 어려움
  • 주름 많은 구겨진 컷 — 비추. AI가 주름을 디자인으로 오해
  • 로고·프린트·패턴이 또렷한 컷 — 필수. 흐릿하면 모델컷에서 글자가 외계어로 변함

실무 팁: 한 옷에 대해 정면 + 측면 + 디테일(소매/카라/프린트) 3장을 준비하면 모델이 입었을 때 일관성이 확 올라갑니다.

2. 모델 캐스팅 — 얼굴·체형을 먼저 "고정"한다

옷부터 입히면 모델 얼굴이 컷마다 바뀝니다. 순서를 뒤집으세요. 모델을 먼저 만들고 잠근 다음, 그 모델에게 옷을 입힙니다.

  1. 타깃 고객 닮은 모델 스펙을 정합니다 — 인종(동양인), 나이대, 체형 라인, 키, 헤어, 분위기
  2. 빈 배경에 기본 포즈로 모델 한 장을 생성합니다 (이게 캐릭터 시트)
  3. 이 시트를 레퍼런스로 잠그고 모든 후속 컷에서 재사용합니다

이렇게 하면 화이트 티 컷이든 코트 컷이든 "같은 모델"이 입은 것처럼 보입니다. 상세페이지 통일감의 핵심이 바로 이 모델 락(lock)입니다.

3. 옷 입히기 — 핏·사이즈가 안 망가지는 프롬프트 구조

여기가 본론입니다. AI에게 "이 옷 입혀줘"라고만 하면 옷을 리디자인해버립니다. 프롬프트를 3블록으로 쪼개세요.

블록역할예시 문구
① 락(보존)바꾸면 안 되는 것 명시"옷의 색상·프린트·로고·실루엣·소매 길이·기장을 정확히 유지"
② 핏(착장)몸에 닿는 방식 지정"오버핏이면 오버핏 그대로, 몸에 자연스럽게 드레이프"
③ 씬(연출)배경·포즈·조명만 자유"미니멀 스튜디오, 자연광, 정면 3/4 포즈"

핵심은 ①과 ③을 분리하는 것. 창의성은 ③(배경·조명)에서만 허용하고, 옷 자체(①)는 "수정 금지" 영역으로 못 박습니다. nano-banana나 Seedream 4.0 같은 i2i 모델은 이 분리만 잘 해도 핏 왜곡이 절반으로 줍니다.

4. 왜곡 잡는 가드 체크리스트 (생성 후 1분 검수)

뽑고 나서 무조건 이 5개를 확인하세요. 한 개라도 걸리면 재생성입니다. 이걸 건너뛰면 "AI 티" 나는 컷이 그대로 상세페이지에 올라갑니다.

  • 로고/글자 — 원본과 글자가 똑같은가? 한 글자라도 다르면 탈락
  • 사이즈 라인 — 오버핏이 슬림으로, 롱이 크롭으로 바뀌지 않았나
  • 소매·기장 — 가장 잘 줄어드는 부위. 원본 비율과 비교
  • 패턴 연속성 — 줄무늬·체크가 봉제선에서 자연스럽게 이어지나
  • 손가락·디테일 — 손이 6개 손가락이거나 단추가 녹아있지 않나

실무에서는 원본과 결과를 나란히 띄워놓고 검수합니다. 기억으로 비교하면 미묘한 왜곡을 놓칩니다.

5. 모델·도구 선택 — 무엇을 언제 쓰나

모델컷은 "한 도구로 다"가 아니라 단계별로 갈아탑니다. 정지 모델컷이 목표라면 영상 모델은 필요 없습니다.

용도추천 도구
옷 입히기(i2i)nano-banana / Seedream 4.0레퍼런스 보존력 우수, 핏 유지 안정적
로고·텍스트 정밀Flux Kontext / gpt-image-2글자 보존 강함, 디테일 살림
같은 모델 여러 컷캐릭터 시트 락 방식모델 동일성 유지가 통일감 핵심
움직이는 룩북(선택)Kling 2.6 i2v정지 모델컷 완성 후 한 컷만 영상화

순서를 기억하세요: 모델 락 → i2i 착장 → 글자 보정 → 검수. 이 파이프라인이면 옷 사진 한 세트로 모델컷 10장을 하루 안에, 그것도 모델 섭외비 0원으로 뽑습니다.

6. 자주 하는 실수 3가지

  • 한 프롬프트에 다 욱여넣기 — 모델 생성과 착장을 한 번에 시키면 둘 다 어설픕니다. 무조건 단계 분리
  • 저해상도 입력 — 흐린 옷 사진은 흐린 결과를 부릅니다. 입력부터 선명하게
  • 검수 생략 — "그럴듯해 보여서" 그냥 올리면 고객이 사이즈 클레임을 겁니다. 사이즈 왜곡은 환불로 직결
옷 사진 한 세트로 모델컷을 직접 뽑아보고 싶다면, 위 5개 가드 체크리스트부터 출력해 옆에 두고 시작하세요. 직접 운영이 버겁다면 휴먼랩이 모델 락부터 검수까지 done-for-you로 돌려드립니다.

관련 가이드

의류 AI 가상모델 광고는 실제로 어떻게 만들어지나 — 워크플로, 슬롭이 나는 이유, 그리고 따라 할 수 있는 기법
PRODUCTION READYGEN_VIDEO2026-06-17

의류 AI 가상모델 광고는 실제로 어떻게 만들어지나 — 워크플로, 슬롭이 나는 이유, 그리고 따라 할 수 있는 기법

의류·패션 브랜드의 AI 가상모델 광고가 실제로 어떤 단계로 만들어지는지(옷 업로드→착용 컷→영상 확장), 의류 고유의 난제(로고·패턴·핏·색상 보존)는 어디서 무너지는지, 왜 대부분 'AI 티/슬롭'이 나는지(일관성 문제 + 2025년 슬롭·소비자 인식 데이터), 2026년 도구 현실(Veo 3.1/Kling 2.6/Sora 2/Runway가 각각 무엇에 강하고 어디에 한계가 있는지), 그리고 좋은 결과를 내는 실제 기법(전속 얼굴 reference 고정 + 복붙 가능한 톤 가이드 + 발행 전 체크리스트)을 학술적이면서 직접 따라 할 수 있게 정리했습니다. 한계와 실패 모드까지 정직하게 다룹니다.

기술 리포트 보기->

"AI로 가상모델 광고를 만들 수 있다"는 말은 이제 새롭지 않습니다. 진짜 질문은 "그게 실제로 어떻게 만들어지고, 왜 대부분은 어색한 결과가 나오는가"입니다. 이 글은 의류·패션 브랜드 입장에서 가상모델 광고의 실제 제작 흐름을 분해하고, 의류 고유의 난제(로고·패턴·핏·색상 보존)와 슬롭(slop)이 생기는 원인, 그리고 직접 적용할 수 있는 개선 기법과 아직 남은 한계까지 정리합니다.

1. 실제 워크플로: 옷 사진 한 장에서 영상까지

대표적인 가상모델 도구의 일반적인 흐름은 네 단계로 볼 수 있습니다. 각 단계에 '직접 할 수 있는' 입력·검수 포인트를 같이 적었습니다.

  1. 의류 이미지 업로드 — 핏 추론에는 평면 누끼 컷보다 마네킹/고스트 마네킹 컷이 유리합니다. 정면·측면·디테일(로고·심·단추) 3컷을, 단색 배경의 고해상도로 올리면 옷의 형태와 드레이프가 더 잘 보존됩니다.
  2. 모델·포즈·배경 선택 — 모델 프리셋(외형), 포즈, 스튜디오·거리 같은 배경을 고릅니다. 모델 체형이 옷의 의도된 핏(오버핏·슬림 등)과 맞는지 먼저 보세요.
  3. 착용 컷 생성 — 그 옷을 입은 모델 이미지가 만들어집니다(도구에 따라 수 초~수십 초). 여기서 일반 i2i보다 옷 영역을 보존(garment-preserving)하거나 마스킹·인페인팅으로 고정하는 접근이 디테일 유지에 유리합니다. 생성 직후 로고·패턴·단추 개수·핏을 원본과 곧바로 대조하세요.
  4. 이미지 → 영상 확장 — 채택한 착용 컷을 그대로 first frame으로 넣어 모션을 입히면 숏폼 클립이 됩니다(image-to-video). 모션 프롬프트는 LEAN하게 — 과다 묘사가 오히려 옷·손의 왜곡을 부릅니다.

여기까지는 누구나 할 수 있습니다. 그래서 "이제 누구나 가상모델 광고를 만든다"는 말은 절반만 맞습니다. '한 장을 뽑는 것'과 '그 얼굴을 캠페인 전체에 계속 쓸 수 있게 만드는 것'은 전혀 다른 작업이기 때문입니다.

2. 왜 대부분 'AI 티'가 나나: 슬롭은 도구가 아니라 일관성의 문제다

2025년 광고판에서 가장 빠르게 번진 단어가 'AI 슬롭(slop)'입니다. 숫자로 보면 분위기가 분명합니다.

  • 'AI 슬롭' 언급은 2025년 한 해 +200% 늘었고, 그중 82%가 부정적이었습니다.
  • 약 6,000명 미국 소비자 설문에서 AI 생성 광고에 대한 감정은 부정 39% 대 긍정 18% — 부정이 두 배 이상이었습니다.

이 통계는 슬롭 담론 전반의 수치로, 가상모델 광고 품질과의 직접 인과라기보다 시장 분위기의 방증으로 읽는 게 정확합니다. 그래도 원인 진단에는 일관됩니다. 슬롭은 도구가 약해서가 아니라 일관성을 관리하지 않아서 생깁니다. 셀프 생성에서 흔한 증상은 세 가지입니다.

  • 얼굴 드리프트 — 컷마다 같은 모델인데 미세하게 다른 사람처럼 보입니다(눈 간격·턱선·피부 톤이 흔들림).
  • 톤 불일치 — 조명·색감·무드가 컷마다 제각각이라 한 캠페인처럼 묶이지 않습니다.
  • 동질화 — 다들 같은 프리셋·같은 프롬프트를 쓰니 결과물이 서로 닮습니다. 실제로 도구 도입 브랜드의 86%가 "경쟁사와 닮아간다"고 우려한다는 조사 결과도 있습니다(결과 측정치가 아니라 인식 지표).

한 가지 맥락을 덧붙이면, 생성량 자체는 폭발하고 있습니다. Google은 Performance Max/AI Max를 통해 2025년 4분기에만 광고 에셋을 약 7천만 개 생성(전년 대비 3배)했습니다. 제작 시간은 70~90% 줄고 볼륨은 5~10배 늘었습니다. 즉 누구나 '많이' 만들 수 있게 됐기 때문에, 차별화는 양이 아니라 일관성과 톤에서 나옵니다.

3. 도구 현실: 무엇을 어디에 쓰나 (2026)

하나의 도구로 모든 걸 해결하려 하면 오히려 품질이 떨어집니다. 강점이 다르기 때문에 단계별로 나눠 쓰는 게 현실적입니다. 아래는 2026년 6월 기준 정리입니다(Veo 3.1은 2026년 1월 공개).

도구강점i2v / 길이·해상도비용·접근잘 맞는 용도
Veo 3.14K · 네이티브 오디오 · 레퍼런스/퍼스트-라스트 프레임 제어i2v 지원 · 4K상대적 고마무리 품질, 시작·끝 프레임 고정 컷
Kling 2.6최대 2분 연속 · 립싱크에 특히 강함 · 비용 효율i2v 지원 · 최대 2분상대적 저(비용 효율)말하는 모델, 긴 호흡의 컷, 물량 대비 단가
Sora 2짧은 임팩트 (지역·시기에 따라 가용성 변동)최대 25초가용성 변동 — 대체 도구 준비짧은 훅/숏폼 한 컷
Runway편집 · 세밀한 제어편집·보정 중심상대적 중생성 후 보정·합성 보조

핵심 원칙은 "한 도구 = 한 역할"입니다. 시작·끝 프레임을 지정해 모델 동작을 통제해야 하면 Veo의 프레임 제어를, 모델이 제품을 설명하며 말해야 하면 Kling의 립싱크를, 짧은 훅 컷이면 Sora를 쓰는 식입니다. 단, 도구를 늘리면 비용·계정·러닝커브와 일관성 관리 부담이 함께 커집니다. 소규모라면 1~2개로 시작해 필요할 때 확장하세요.

4. 잘 되게 하는 실제 기법: 직접 적용 가능한 3가지

여기가 이 글의 핵심입니다. 비싼 도구가 아니라 운영 방식이 결과를 가릅니다. 다음 세 가지는 오늘 바로 적용할 수 있습니다.

① 전속 얼굴을 reference로 '고정'한다

가장 흔한 실수가 컷마다 모델을 새로 생성하는 것입니다. 그러면 얼굴이 매번 흔들립니다. 절차는 이렇습니다.

  1. 전속 얼굴 1장을 고품질로 확정합니다.
  2. 그 인물의 캐릭터 시트를 만듭니다 — 정면·3/4·측면 각도에, 무표정과 미소를 여러 장 확보해 라이브러리화합니다.
  3. 매 컷마다 이 reference 이미지를 입력으로 강제합니다(예: Veo의 레퍼런스 제어).

주의할 점: 영상 생성 도구에서 'seed 고정'은 동일 인물을 보장하지 못합니다. 동일성을 만드는 메커니즘은 seed가 아니라 reference 이미지 고정입니다. 검증은 간단합니다 — 두 컷을 나란히 놓고 눈 간격·턱선·헤어라인을 사람이 대조하면 됩니다. 옷은 시즌마다 바뀌어도, 얼굴은 바뀌지 않아야 합니다.

② 톤 가이드를 문서로 만들고 모든 컷에 똑같이 적용한다

아래 6항목을 한 번 적어 두고, 매 프롬프트 끝에 같은 순서로 append하세요. 한 캠페인 안에서 톤 키워드가 일정해야 컷들이 '한 시리즈'로 묶이고, 이것이 동질화(다른 브랜드와 닮아짐)를 막는 가장 값싼 방법이기도 합니다.

항목기입 예시
조명키/필/방향, 색온도 (예: 소프트 자연광, 측면 키, 5200K)
컬러 팔레트주조색 HEX 2~3개 + 채도 레벨 (예: #F2E8DC·#3A3A3A, 채도 낮춤)
렌즈/구도초점거리 느낌, 앵글 (예: 50mm 느낌, 아이레벨)
무드 형용사3개 (예: 미니멀·차분·따뜻함)
배경 규칙일관 배경 (예: 단색 베이지 스튜디오)
후보정 룩필름/디지털 그레이딩 (예: 가벼운 필름 톤)

여기에 negative 키워드(왜곡, 여분 손가락, 깨진 텍스트 등)를 함께 넣어 두면 슬롭을 한 단계 줄일 수 있습니다.

③ 발행 전 체크리스트로 사람이 검수한다

생성물은 그럴듯해 보여도 결함이 자주 섞입니다. '한 번 본다'가 아니라 PASS/FAIL 게이트로 고정하세요.

  • 손/손가락 개수·교차 자연성
  • 로고·패턴·단추 정합(원본 대조)
  • 핏·주름의 자연성
  • 얼굴 드리프트 — 전속 reference와 대조
  • 텍스트/타이포 깨짐
  • 컬러 정확도 — 생성 컬러가 실제 제품 색과 일치하는지

원칙은 단순합니다 — 판단은 사람, 반복 생산은 AI. 이 분업이 일관성을 지키는 마지막 관문입니다. 실제로 도구를 바꿔 가며 테스트했을 때 결정적 변수는 늘 도구가 아니라 '얼굴 고정 + 톤 일관 + 사람 검수' 쪽이었습니다.

5. 일관성 예시와 셀프 체크

동일 가상모델 스킨케어 컷동일 가상모델 패션 컷동일 가상모델 테크 컷

▲ 같은 reference로 고정한 동일 모델 — 카테고리가 바뀌어도 같은 인물

위 세 가지가 지켜지면 동일한 가상모델이 스킨케어 → 코스메틱 → 패션 → 테크로 카테고리를 바꿔도 같은 인물로 인식됩니다. 옷과 제품, 배경이 전부 달라져도 얼굴·눈매·피부 톤·전체 무드가 흔들리지 않습니다. 본인 결과가 정말 일관적인지 확인하려면, 두 컷을 나란히 놓고 다음을 육안 대조하세요.

  1. 눈 간격·동공 거리
  2. 헤어라인·가르마
  3. 피부 톤/언더톤
  4. 치아·미소 모양
  5. 전체 색온도

하나라도 어긋나면 reference를 다시 고정하면 됩니다. 이렇게 하면 컷이 수십, 수백 장으로 늘어도 하나의 시리즈로 묶을 수 있습니다. 참고로 버추얼 모델은 사람 모델 대비 약 25배 저렴하고, 실존 인물에서 발생하는 사생활·스캔들 이슈에서 자유로우며, 24시간 운영이 가능합니다. 실제 운영 사례로는 현대 Kenza Layli(8개국 실시간 현지화), L'Oréal Kyra(1억뷰·인게이지먼트 5%), LG 래아킴 등이 있습니다.

6. 아직 어려운 것 / 알려진 한계

'잘 되게 하는 법'만큼 '아직 안 되는 것'을 아는 게 중요합니다. reference 고정으로도 막지 못하는 실패와 우회책입니다.

  • 복잡한 로고·텍스트는 여전히 깨집니다 → 생성 후 합성·후보정으로 우회.
  • 손/손가락은 i2v 모션에서 자주 붕괴합니다 → 모션을 LEAN하게, 손 클로즈업은 회피.
  • 색 시프트 — 생성 컬러가 실제 제품 색과 달라질 수 있습니다 → 컬러 그레이딩으로 맞춤.
  • reference 고정도 100%는 아닙니다 → 생성 N장 중 합격 1장을 고르는 채택률 운영을 전제로 두세요.

요약

단계흔한 실수(슬롭)되게 하는 법
의류 업로드평면 누끼 1컷마네킹 정면·측면·디테일 3컷, 단색 고해상도
모델 생성컷마다 새로 생성 → 얼굴 흔들림전속 얼굴 캐릭터 시트를 reference로 고정·재사용
컷마다 색감·조명 제각각6항목 톤 가이드 → 전 컷 동일 순서 append
도구한 도구로 전부 처리용도별 분업(Veo·Kling·Sora·Runway), 소규모는 1~2개
발행생성물 그대로 게시로고·핏·손·얼굴·컬러 체크리스트 게이트

정리하면, AI 가상모델 광고의 성패는 어떤 도구를 쓰느냐가 아니라 얼굴을 reference로 고정하고, 톤을 일관되게 유지하고, 사람이 검수하느냐에 달려 있습니다. 이 세 가지는 도구를 안 바꿔도 오늘 바로 적용할 수 있습니다.

핵심 한 줄: 슬롭과 광고를 가르는 건 도구가 아니라 '일관성'입니다. 더 깊이 들어가고 싶다면 HumanLabAI의 LUMINA 운영 사례를 참고하세요.

관련 가이드