ElevenLabs로 오디오북 만들기 2026 — 내 책·글을 AI 목소리로

이 페이지의 일부 링크는 제휴 링크이며, 구매 시 추가 비용 없이 소정의 수수료를 받을 수 있습니다.

자가출판으로 책을 낸 작가나, 긴 글을 오디오 콘텐츠로 바꾸고 싶은 블로거에게 가장 큰 장벽은 성우 섭외 비용입니다. 오디오북 나레이션을 전문 성우에게 맡기면 분당 단가가 쌓여 책 한 권이 수백만 원을 넘기기도 합니다. 게다가 원고를 한 번 수정하면 재녹음 비용이 또 발생합니다.

ElevenLabs를 쓰면 이 과정을 혼자서, 훨씬 적은 비용으로 끝낼 수 있습니다. 다만 유튜브 영상 더빙처럼 몇 분짜리 클립을 만드는 것과, 몇만 자짜리 원고 전체를 하나의 오디오북으로 완성하는 것은 완전히 다른 작업입니다. 이 글에서는 장문 텍스트를 처음부터 끝까지 오디오북으로 만드는 실전 흐름을 단계별로 정리했습니다.

준비물

ElevenLabs 계정 — 무료 플랜으로 목소리 테스트는 가능하지만, 책 한 권 분량을 뽑으려면 크레딧이 넉넉한 유료 플랜이 사실상 필수입니다. 장문 작업 전에 플랜별 월간 크레딧 한도를 먼저 확인하세요.
정리된 원고 텍스트 — 오탈자와 비문을 미리 손봐두세요. AI는 원고를 있는 그대로 읽기 때문에, 어색한 문장은 어색한 나레이션으로 그대로 드러납니다.
챕터 구조 — 목차 기준으로 원고를 챕터·섹션 단위 파일로 나눠 두면 뒤 단계가 훨씬 수월합니다.

1단계 — 목소리 선택(내레이션에 맞는 톤)

Voice Library에서 목소리를 고를 때는 유튜브 광고 나레이션과 기준이 다릅니다. 오디오북은 청취자가 30분, 1시간씩 이어서 듣기 때문에 처음엔 매력적이던 목소리도 오래 들으면 피로해지는 경우가 많습니다.

소설·에세이라면 차분하고 리듬이 자연스러운 목소리를, 실용서·자기계발서라면 또렷하고 신뢰감 있는 톤을 고르세요.
후보를 2~3개로 좁힌 뒤, 반드시 본문 중 가장 긴 문단 하나로 직접 테스트해 보세요. 짧은 샘플 문장만으로는 장시간 청취 시 피로도를 판단하기 어렵습니다.
목소리를 확정했다면 Voice ID를 메모해 두세요. 이후 단계에서 같은 프로젝트 전체에 동일한 목소리를 지정할 때 필요합니다.

2단계 — Projects 기능으로 장문 텍스트 관리

Text to Speech 창에 원고를 그대로 붙여 넣는 방식은 몇천 자를 넘어가면 관리가 힘들어집니다. 이때 쓰는 것이 Projects 기능입니다.

대시보드에서 "Projects"를 열고 새 프로젝트를 만듭니다.
원고 파일(txt, docx, epub 등)을 업로드하거나 텍스트를 직접 붙여 넣습니다. Projects는 긴 문서를 자동으로 문단·섹션 단위로 인식해 나눠 보여줍니다.
프로젝트 전체에 적용할 기본 목소리를 1단계에서 고른 목소리로 지정합니다.
섹션별로 미리 듣고, 필요하면 특정 구간만 개별적으로 재생성할 수 있습니다. 원고 전체를 한 번에 다시 뽑을 필요가 없다는 점이 Projects의 핵심 장점입니다.

책 한 권을 프로젝트 하나로 관리하면 진행 상황을 한눈에 볼 수 있고, 나중에 원고를 수정했을 때도 바뀐 섹션만 다시 생성하면 됩니다.

3단계 — 챕터별 분할·일관성 유지

Projects 안에서도 챕터 단위로 별도 문서를 만들어 관리하는 것을 권합니다. 이유는 두 가지입니다.

크레딧 관리 — 챕터 단위로 나누면 어디까지 작업했는지, 얼마나 소모했는지 추적하기 쉽습니다.
음성 일관성 — 같은 프로젝트라도 생성 시점이 다르면 톤이 미세하게 달라질 수 있습니다. 챕터마다 Stability·Similarity 파라미터 값을 동일하게 고정해 두면 이 차이를 줄일 수 있습니다.

파라미터는 유튜브 더빙 때와 마찬가지로 Stability(안정성)와 Similarity(유사도)가 핵심인데, 오디오북은 Stability를 다소 높게(55~70%) 두는 편이 낭독 톤을 안정적으로 유지하는 데 유리합니다. 감정 기복이 큰 소설이라면 챕터 내에서도 장면에 따라 값을 조금씩 조정해도 좋습니다. 파라미터를 정했다면 스프레드시트 등에 챕터별 값을 기록해 두세요. 몇 주 뒤 이어서 작업할 때 톤이 흔들리는 것을 막아 줍니다.

4단계 — 발음·억양 세부 조정(SSML/문장부호)

장문일수록 잘못 읽히는 고유명사, 어색한 억양이 자주 등장합니다. 문단마다 하나씩 고치면 끝이 없으니, 규칙을 정해두고 일괄 적용하는 것이 효율적입니다.

문장부호로 호흡 조절 — 쉼표는 짧은 멈춤, 마침표는 긴 멈춤, 줄바꿈은 문단 전환을 의미합니다. 대사가 빠르게 오가는 장면은 짧은 문장으로, 서술이 이어지는 장면은 긴 문장으로 구성하면 리듬이 자연스러워집니다.
고유명사·외래어 표기 통일 — 인물 이름이나 지명이 이상하게 읽히면 발음 나는 대로 표기를 바꾸고, 원고 전체에서 같은 표기를 반복 사용하세요. 챕터마다 표기가 다르면 발음도 매번 달라집니다.
숫자·기호 풀어쓰기 — "1592년"보다 "천오백구십이 년"처럼 읽는 방식대로 풀어 쓰면 결과가 안정적입니다.
SSML 활용 — ElevenLabs는 일부 태그로 쉼(break) 길이나 강조를 세밀하게 제어할 수 있습니다. 문장부호만으로 해결되지 않는 구간에 제한적으로 사용하세요.

5단계 — 챕터 이어붙이기·내보내기

챕터별로 생성이 끝났다면 순서대로 내보냅니다.

각 챕터를 WAV로 다운로드합니다. 여러 파일을 이어 붙일 예정이라면 손실 압축인 MP3보다 WAV가 음질 저하가 적습니다.
오디오 편집 프로그램(오다시티, 어도비 오디션 등)에서 챕터 파일을 순서대로 배치합니다.
챕터 사이에 1~2초의 무음 구간을 균일하게 넣어 전환을 자연스럽게 만듭니다.
전체를 한 번에 들으며 챕터 경계에서 톤이 튀는 구간이 없는지 확인합니다. 튀는 구간이 있다면 3단계에서 기록해 둔 파라미터 값을 참고해 해당 챕터만 다시 생성합니다.
최종 파일을 오디오북 배포 규격(예: MP3, 특정 비트레이트)에 맞춰 다시 내보냅니다.

6단계 — 배경음악·믹싱(선택)

배경음악은 나레이션보다 훨씬 낮은 볼륨(대사 대비 -20dB 이상 낮게)으로 설정해 청취를 방해하지 않게 합니다.
챕터 본문 중간에는 배경음악을 넣지 않는 것이 일반적입니다. 장시간 청취 시 오히려 피로를 유발할 수 있습니다.
최종 파일의 라우드니스는 오디오북 플랫폼 표준(-18~-23 LUFS 부근)에 맞춰 노멀라이즈하면 배포 시 볼륨 문제가 줄어듭니다.

장문 작업 시 주의점

크레딧 소모를 미리 계산하세요. 책 한 권 분량(8만~12만 자)은 플랜별 월간 한도를 쉽게 넘길 수 있습니다. 작업 시작 전 전체 글자 수를 세어 필요한 크레딧을 가늠해 두세요.
생성물을 챕터별로 즉시 백업하세요. 프로젝트 내에서 재생성을 반복하다 이전 결과를 덮어쓰는 경우가 있습니다. 마음에 든 챕터는 바로 로컬에 다운로드해 보관하세요.
음성 일관성을 주기적으로 체크하세요. 며칠에 걸쳐 나눠 작업하면 어제 만든 챕터와 오늘 만든 챕터의 톤이 미묘하게 달라질 수 있습니다. 챕터 하나를 완성할 때마다 직전 챕터의 마지막 부분과 이어 들어보는 습관을 들이세요.

저작권·상업적 이용 안내

유료 플랜에서 생성한 오디오는 대체로 상업적 판매(오디오북 유통 포함)가 허용되지만, 플랫폼마다 라이선스 조건이 다르므로 판매 전 반드시 최신 이용약관을 확인하세요.

마무리

오디오북 제작은 유튜브 더빙과 달리 하루 만에 끝나는 작업이 아닙니다. 목소리를 신중히 고르고, Projects로 원고를 체계적으로 관리하고, 챕터별로 파라미터를 기록해 일관성을 지키는 것이 핵심입니다. 유튜브 콘텐츠에 AI 음성을 먼저 적용해 보고 싶다면 ElevenLabs로 유튜브 더빙하기 글도 참고하세요.

가장 좋은 시작 방법은 챕터 하나를 통째로 완성해 보는 것입니다. ElevenLabs 무료로 시작해서 여러분의 원고를 오디오북으로 만들어 보세요.