尺を30秒〜6分+カスタムで指定でき、指定通りの長さで生成される正確性
ElevenLabsは音楽生成画面の下部バーで曲の長さを指定できます。選択肢はAuto / 30秒 / 1分 / 2分 / 4分 / 6分、さらに「カスタム」入力で3:30のような秒単位の指定も可能で、実際に指定した通りの尺で生成されます。
この正確性は、競合の音楽生成AIと比較すると際立ちます。GeminiのLyria 3には尺指定UIが存在せず、同じプロンプトで何度試しても30秒で終わる曲が出たり、2分半の長尺が出たりと、出力の尺がランダムでした。日によっては基本30秒、別の日は2分を超える曲が連続するなど、制作者側で尺をコントロールする手段がありません。Sunoも尺指定UIを持たず、Styles欄に「Song duration: 3 minutes.」とプロンプトで書いても無視され、Lyrics欄の歌詞量で間接的に尺を制御する以外の方法がありません。ElevenLabsのように下部バーで直接指定できて、指定通りの長さで出力される製品は音楽生成AIの中では珍しいです。
クレジット消費は900クレジット/分が基本で、30秒1バリアントが約450クレジット、4分1バリアントが3,600クレジットの消費になります。Creatorプラン($11/月、121,000クレジット)では4分曲を約33曲生成できる計算です。尺指定が正確であることは、クレジット運用上も実利があります。具体的には「30秒の短尺でプロンプトの方向性をチューニング→固まったらフル尺の4分で本番生成」という段階的な運用が成立します。短尺でプロンプトを調整することで無駄なクレジット消費を抑えながら、本番時には指定した尺で確実に生成される。尺がランダムな製品では「短尺で方向性を決める」という段階的な運用自体が成り立たないため、意図した曲を効率的に作りたいクリエイターにとって、この尺指定の正確性は単なるUI機能以上の価値を持ちます。
ElevenLabsの長さ選択ドロップダウン。Auto/30秒/1分/2分/4分/6分+カスタム入力から選択できる
セクション単位の生成後編集で、曲全体を壊さず部分的に作り込める
ElevenLabsは一度生成した曲に対して、セクション単位で詳細な編集ができます。生成後の曲はタイムラインUIでIntro / Verse 1 / Chorus / Bridge / Verse 2 / Chorus 2 / Guitar Solo / Outroのように構成が可視化され、各セクションをクリックするとそのセクション専用の「セクションスタイル」編集モーダルが開きます。モーダル内では歌詞の書き換え、尺の変更、スタイルタグ(「final powerful chord」「cymbal crash」「bridge-muted funky guitar riff」等)の追加と除外、セクションそのものの追加まで可能で、「Chorusの歌詞を更新」「Guitar Solo短縮」のように複数の変更をまとめて反映できます。
この粒度の編集機能は、他の歌モノ系音楽生成AIでは基本的にPro以上の有料プランでしか利用できません。SunoはSong Editor経由でセクション単位の置換・削除・再生成が可能ですが、Pro($10/月)以上のプラン限定です。Geminiにはそもそもセクション編集の概念がなく、気に入らない部分があれば最初から再生成するしかありません。ElevenLabsは**無料プランでもセクション単位の編集が可能**で、ただしクレジットは消費します。
編集時の再生成コストは、**編集された秒数分だけ1分あたり900クレジットのレートで秒按分課金**される仕様です。たとえば4秒のセクションを編集した場合の消費は60クレジット(15クレジット/秒)、30秒のセクション編集なら450クレジット、1分まるごと編集しても900クレジットで済みます。編集箇所を複数選んでまとめて再生成する場合も、再生成される秒数分だけがカウントされます。
この課金ロジックは、ElevenLabsの編集機能の価値を決定的に高めます。30秒曲で4秒の冒頭だけ修正したい場合、新規生成なら約450クレジットかかるところ、編集ならわずか60クレジット(約7.5分の1)で済みます。4分曲で4秒の微修正をしたい場合は、新規生成3,600クレジットに対して編集60クレジットと、**約60倍のコスト差**が生まれます。**「気に入った箇所は残し、気になる箇所だけピンポイントで修正する」運用が、クレジットを最小限に抑えながら曲を完成に近づける最適戦略**になります。「30秒の短尺でプロンプトの方向性をチューニング→固まったらフル尺の4分で本番生成→気になる箇所だけセクション編集で秒単位の微修正」という3段構えのワークフローが、ElevenLabsの最もクレジット効率の良い運用です。Sunoにも類似のセクション編集機能はありますが、Pro以上の有料機能で、ElevenLabsのFreeプランから使える秒按分課金の設計は、音楽生成AIの編集機能としては現状最もコスト効率が良い設計と言えます。
ElevenLabsの編集画面。編集箇所1分当たり900クレジットの消費と記載。4秒だけなら60クレジット消費だった。
歌詞を自動・カスタム・インストの3モードで制御でき、自分の歌詞をそのまま歌わせられる
ElevenLabsは歌詞の扱いを下部バーのドロップダウンから3モード切替できます。「自動」はプロンプトに沿ってAIが歌詞を自動生成、「カスタム」は自分で書いた歌詞を入力してそのまま歌わせる、「インストゥメンタル」は歌詞なしのインスト曲として生成、の3つです。カスタムモードは**日本語歌詞にも対応**し、セクション編集時にもセクション単位で歌詞を書き換えられます。
この自由度は、歌モノ系で歌詞を細かく制御したい人にとっては明確な優位点です。**Geminiには歌詞の直接入力機能がなく、歌詞はプロンプトで言語指定(イタリア語、韓国語等)はできても、AIの自動生成のみ**で制御できません。禁止指示で部分的に制御(「歌い出しのアスファルト禁止」等)する形になりますが、自分が書いた歌詞をそのまま歌ってもらうことはできません。SunoのAdvancedモードはLyrics欄に歌詞を3,000字まで直接入力でき、セクション構造を[Verse][Chorus]といったメタタグで指定できるため、歌詞制御の柔軟性ではSunoもElevenLabsも同レベルです。ただしSunoはLyrics Modeが「Manual」「Auto」の2択で、**インストゥメンタル専用モード**は別トグルでの切替になります。ElevenLabsのように1つのドロップダウンで3モード切替できるUIは、初心者にとって「歌モノかインストか」「自分で書くかAIに任せるか」の選択が直感的に伝わる設計です。
歌詞モード選択ドロップダウン。自動/カスタム/インストゥメンタルの3つから選べる。
公式プリセット22種+自作に対応するファインチューン機能で、プロンプトでは届かない音色の土台を変えられる
ElevenLabsにはプロンプトとは別軸で曲の音色・質感を変える「ファインチューン」機能があります。下部バーの「微調整なし」ボタンを押すと公式プリセット22種が一覧で表示され、うち11種に「新規」ラベルが付いている拡張中の機能です。Dark Cinematic、Cinematic Ambient、Relaxing Ambient、Bass Techno、Emotional Piano、Percussive Rhythm、Afro House Beats、Brazilian Funk、Reggaetonなど、ジャンルとムードを組み合わせた細かい分類が並びます。各プリセットはその場で試聴可能で、作りたい方向性を耳で確認してから選択できます。Creator以上のプラン($11/月)では、自分の楽曲をアップロードしてファインチューンを自作することもできます。
ここで重要なのは、ファインチューンはプロンプトのジャンル指定とは異なるレイヤーの機能という点です。プロンプトのジャンル指定は「何を作るか」の指示(プロンプトの補助)であるのに対し、ファインチューンは「どういう音で作るか」の土台、つまりモデル自体の改造に相当します。プロンプトでは指示しきれない音色・質感・プロダクションスタイルが、ファインチューン側で決まります。たとえば同じ「エネルギッシュなロック」というプロンプトでも、ファインチューンを変えると音の粒立ちや空気感が根本から変わります。Geminiにはこの概念に相当する機能が存在せず、Sunoも無料プランではスタイル系のレファレンスは限定的です。
ただし、ファインチューンとプロンプトには相性問題もあります。試しに「エネルギッシュなロック」というプロンプトでファインチューンに「70's Cambodian Rock」を指定して4分尺で生成したところ、意図したエネルギッシュさとはまったく異なる、70年代カンボジア風のクセの強い音楽が生成されてしまいました。現在のプリセットにはロック系の選択肢自体が少なく、Rock寄りの曲を作りたい場合は「微調整なし」か他ジャンル系のプリセットから無難なものを選ぶ運用になります。ファインチューンの拡充は今後に期待する部分です。
ファインチューン選択モーダル。22種のプリセットが並び、うち11種に「新規」ラベルが表示されている。
日本語プロンプトでも一定反映、詳細指示は英語で確実。スタイルタグを直接編集して引き算的に調整可能
ElevenLabsはプロンプトを日本語で入れても一定反映されますが、奏法や音色の詳細指定まで届かせたい場合は英語プロンプトが必要です。実際に「イタリア語の巻き舌高速ラップ、BPM150以上、スラップベースのグルーヴ、ゴーストノート多めのテクニカルなベースライン、ブリッジミュートのギターリフ」といった詳細な日本語プロンプトでP1検証を実施したところ、イタリア語ラップというジャンル指定とBPM 150+は反映されたものの、スラップベースやゴーストノート、ブリッジミュートといった奏法系の指定はタグレベルで「technical bassline」「technical guitar riff」のような抽象語に退化したり完全に落ちたりしました。同じプロンプトを英語に翻訳して(Energetic alternative funk rock with Italian rap vocals, BPM 150+, slap bass groove with ghost notes...)入れ直すと、「ghost notes bass」「bridge-muted guitar riffs」「trap-influenced hi-hat rolls」のように奏法が固有名詞のままタグ化され、音としてもベースのゴーストノート、ブリッジミュートのギターリフが明確に聴き取れるようになりました。
ElevenLabsはプロンプトを投入すると「スタイルを含める」「スタイルを除外」のタグに自動分解されて画面に可視化される独自のUIを持っています。**これが他の音楽生成AIにはない大きな特徴です。**Sunoは内部で英訳処理を行うもののユーザーからは見えないブラックボックスですが、ElevenLabsは分解結果を画面に出した上で、ユーザーが直接タグを追加・削除・編集できる設計になっています。観察した限りタグ総数には上限がありそうで、検証で出たタグ数は1曲あたり16〜26個の範囲に収まっていました。含めるタグが詳細指示で埋まるほど除外タグの枠が圧迫される挙動も見られ、英語プロンプト時は奏法が「含める」側で担保されるため「除外」側に禁止楽器を書かなくても結果に反映される構造になっていました。
この可視化されたタグは、生成後のチューニングにも活用できます。英語プロンプトで生成した曲は詳細指示が効きすぎてベースが潰れる・ギターの歪みが強すぎるといった問題が起きましたが、その場合は含めるタグから「lo-fi gritty guitar distortion」のような強い形容詞のタグを削除することで、曲全体のバランスを引き算的に調整できます。実際にこの削除を試したところ、ベースの潰れが解消され、音色のバランスが明確に改善しました。**プロンプトに要素を足していくよりも、生成後のタグを削っていく方が効率的にチューニングできる**ケースが多く、これはElevenLabsのタグ可視化UIがあるからこそ成立する運用です。
プロンプト投入後のスタイルタグ自動分解UI。「スタイルを含める」「スタイルを除外」のタグが可視化され、ユーザーが直接編集できる。
バリアントは1〜4から自由選択。1曲だけでクレジット節約も、4曲同時でガチャ一気通貫も可能
ElevenLabsは1プロンプトから生成するバリアント数(生成パターン数)を、下部バーから1〜4の範囲で自由に選べます(スマホアプリは最大2)。他の音楽生成AIと比較するとこの柔軟性は独特です。**Sunoは1プロンプトにつき2バリアント固定で、バリアント数の変更UIはありません**。Udioも同様に基本2バリアントでの生成です。
この違いは運用上、2つの局面で効いてきます。1つ目は、プロンプトの方向性を固めたい序盤フェーズで1バリアントだけ生成してクレジットを節約したい場合。30秒×1バリアントなら約450クレジット(Creator月額121,000クレジットの0.37%)で、プロンプトを何度も微調整しながら安価にテストできます。2つ目は、プロンプトが固まった本番フェーズで4バリアント同時生成してガチャを一気に回したい場合。音楽生成AIは同じプロンプトでも出力が毎回振れるため「当たり引き」の作業が必須ですが、4バリアント同時生成なら1回の待ち時間(4分曲で約1分)で4パターン比較でき、作業効率が大きく変わります。Suno・Udioの2バリアント固定と比べると、**ユーザーが状況に応じてコストと比較の幅をコントロールできる**設計になっています。
実際にElevenLabsでP1の英語プロンプトを2バリアントで同時生成したところ、興味深い現象も観察できました。**同じプロンプトにも関わらず、バリアント1とバリアント2ではタグ分解の結果が微妙に異なっていた**のです。バリアント1には「driving beat」「punchy drums」が含まれる一方、バリアント2には「upbeat」「fast tempo」「aggressive」「shouted chorus」が含まれるなど、ElevenLabsは意図的に解釈のバリエーションを作り出してバリアント間の差を大きくしている設計に見えます。4バリアント同時生成した場合、単に同じ曲の微妙な差ではなく、解釈レベルで異なる4曲が出てくる可能性が高く、ガチャ効率をさらに押し上げます。
入力画面ではバリアント数(生成パターン数)が指定可能
音声生成の総合プラットフォームの中にある音楽機能という位置付け
ElevenLabsの音楽生成機能は、同社のプラットフォーム全体の中では「音声生成の総合パッケージの一部」という位置付けになっています。元々ElevenLabsはテキスト読み上げ(TTS)とボイスクローンの会社で、音楽生成は後から加わった機能です。サイドメニューには「テキスト読み上げ」「サウンドエフェクト」「画像&ビデオ」「ボイスアイソレーター」「ボイスチェンジャー」「ミュージック」「スピーチ to テキスト」が並び、1つのアカウントでこれら全てを使い分けられます。
この統合性は、音声コンテンツを複合的に作る制作者にとっては大きな独自性です。**Sunoは音楽生成に特化しており、ボイスクローンやTTSは提供していません**。UdioもGeminiも同様に、音楽の周辺にある音声機能まではカバーしていません。一方ElevenLabsでは、無料プランでもプロンプトから新しい声をデザインする「ボイスデザイン」機能が利用可能で、音声を生成してそれを他のコンテンツに組み込む流れが同じプラットフォーム内で完結します。Voice Libraryには「Singing Voices」という歌唱用途のボイスカテゴリも用意されており、公式が音楽機能とボイス機能の連携を前提にしていることが伺えます。
ただし、無料プランでは音楽機能の画面にボイスを指定するUIは見当たらず、自作したボイスクローンをそのまま曲で歌わせる運用は現状できません。これは、ボイスクローン機能自体がFreeプランでは利用不可で、Instant Voice CloneはStarter($6/月)以上、Professional Voice CloneはCreator($11/月)以上が必要なためと考えられます。**有料プランでは自分の声のクローンを使って音楽を生成する事例が公式チュートリアル動画でも紹介されており**、音声コンテンツ全体を一貫して制作したいYouTube動画制作者、ポッドキャスター、ゲーム開発者、語学教材制作者にとっては、他社にない統合ワークフローを提供するプラットフォームになっています。音楽単体の機能としてはSunoの方が成熟している部分もありますが、音声全般を扱う制作者にとってはElevenLabsの統合性の価値が大きく上回るケースが多いはずです。
ボイスデザインは無料プランでも利用可能。ボイスクローンは有料プランが必要。
利用前に知っておきたいこと
ElevenLabsには魅力的な機能が多い一方、いくつか注意点があります。
まず、**無料プラン(Free)では生成した曲のダウンロードができません**。これは公式のプラン比較ページには明記されていない制約で、実際にダウンロードしようとすると「ミュージックをダウンロードするにはアップグレードしてください」というモーダルが表示されます。無料プランは「生成と試聴で機能を確認する」用途に限られ、ダウンロードにはStarter以上($6/月〜)が必要です。手元に音源を残したい場合は、無料プランでプロンプトのチューニングを済ませてから有料プランに移行するのが効率的な使い方です。さらに、Freeプランではファインチューン機能の利用も不可、商用利用も不可で、SNS投稿や動画BGMとして使うにはStarter以上が必要になります。
次に、**無料プラン(Free)のクレジット枠は音楽生成には心もとない上限**です。Freeの10,000クレジットは、4分曲×1バリアントが3,600クレジット消費のため、**4分曲を2〜3曲作った時点で枯渇**します。30秒の短尺でプロンプトチューニングを重ねる前提であれば約22回(450クレジット×22回≒9,900)テストできますが、4分のフル尺生成を複数バリアントで試すような「本気の制作」には明らかに不足します。無料プランは「機能を試して使用感を確認する」用途に留め、実制作はStarter以上($6/月、30,000クレジット)に移行するのが現実的です。Creator($11/月、121,000クレジット)まで上がれば4分曲を約33曲分生成でき、さらに自作ファインチューンや商用利用も解禁されるため、本格的に使うならCreaterが第一候補になります。
3点目は、**ファインチューンとプロンプトの相性問題**です。ファインチューンは公式プリセットが22種用意されていますが、現状Rock系の選択肢が少なく、たとえばロック曲を作りたいときに近いのは「70's Cambodian Rock」のようなクセの強いプリセットしかありません。実際に「エネルギッシュなロック」というプロンプトで「70's Cambodian Rock」を指定したところ、プロンプトとファインチューンが噛み合わず、意図とかけ離れたダサい曲が生成されました。ファインチューンを使わずプロンプトだけで作る方が意図通りに近づくケースもあり、万能の機能ではないことに注意が必要です。プリセットの拡充は進行中(11種の「新規」ラベルあり)のため、今後のアップデートでカバー範囲が広がることは期待できます。