Fish Audio

Item: Fish Audio
Author: PIGNUS 後藤 康浩

音声合成AI（ボイスクローン）

使いやすさ
セットアップ
料金
サポート充実
連携・拡張性
機能性
セキュリティ

あなたの職場・業務に求められることや重視することは？

この製品が本当に相応しいかチェックしてみましょう。

コスト

要問合せ

無料プラン

IT導入補助金

無料トライアル

~ 音声合成AI（ボイスクローン）

事業規模

中小

中堅

大企業

Fish Audioとは

強み

注意点

カテゴリ別市場マーケットシェア

代替サービス

サービス基本情報

運営サービス一覧

FitGapにおけるすべての評価は、公平性を最優先に、客観的なアルゴリズムを用いて計算されています。製品の評価方法は「FitGapの評価メソッド」、シェアデータの算出根拠は「シェアスコアの算出方法」をご覧ください。

Fish Audioとは

Hanabi AI Inc.が提供するFish Audioは、音声合成AI（ボイスクローン）ツールです。短い音声サンプルから話者の特徴を再現できる点に加え、多言語への対応や感情表現のコントロールがしやすい構成となっています。大規模なボイスライブラリを備えており、WebブラウザからPythonおよびJavaScript SDK、従量課金型APIまで幅広いアクセス手段を用意しているため、試用段階から本番環境への導入まで進めやすいのが特徴です。個人クリエイターや少人数チーム、中小企業のコンテンツ制作はもちろん、自社アプリや音声エージェントへの組み込みを検討しているスタートアップから中堅・大企業の開発部門にも活用しやすい製品です。FitGapの機能性評価はカテゴリ36製品中5位、連携評価はカテゴリ36製品中8位で、音声生成機能と開発向けの組み込みやすさを重視する場合の比較対象になります。動画ナレーション、広告制作、教育コンテンツ、オーディオブック、キャラクターボイスといった用途において、音声の自然さと運用のしやすさを両立したい場合に比較検討の候補となるツールです。

強み

セルフホスティング対応

Fish Audioは、ローカルセットアップ・Dockerデプロイ・ローカル推論の手順を公式に公開しており、自己ホスト運用の選択肢を明示している点が特徴です。ElevenLabsやMurf、PlayAIといった競合製品がクラウドやAPIを中心とした案内に留まるのと比べ、導入形態の柔軟性において優位性が生まれやすい構成といえます。音声データを外部サービスに送信したくない企業や、厳格なセキュリティ要件を持つ開発組織にとって、検討しやすい選択肢となるでしょう。

短尺音声での独自モデル作成

Fish Audioでは、カスタム音声モデルを最短15秒の音声から作成でき、ベストプラクティスとして案内されている目安も10秒以上の録音からとなっています。競合サービスでも短いサンプルによる音声クローン機能は提供されていますが、高品質な出力を求める場合は長めの収録が前提になりやすい傾向があります。Fish Audioは少ない素材でも試しやすい設計であるため、手元の収録データが限られた段階での検証や、短期間でのPoC実施を検討しているチームにとって取り組みやすい選択肢といえます。FitGapの機能性評価はカテゴリ36製品中5位で、音声モデル作成を含む機能面を重視するチームの比較候補になります。

従量課金API

Fish AudioのAPIは実際の使用量に応じた従量課金制を採用しており、サブスクリプション費用や月額最低料金は発生しません。競合サービスには月額プランや月次クレジットを前提とした料金体系も多い中、Fish Audioは利用量が定まっていない段階でも導入を検討しやすい構成といえます。FitGapの連携評価はカテゴリ36製品中8位で、自社サービスやプロダクトへ音声生成を組み込む用途でも比較しやすい製品です。利用規模の見通しが立てにくい新規事業や、小さく始めて必要に応じて拡張していきたいチームにとって、コスト面でのリスクを抑えながら試しやすい選択肢です。

注意点

無料プランは商用利用に切り替えが必要

無料プランで試したまま商用利用に移行したい場合、Fish Audioでは事前に確認が必要です。公式サイトによると、無料プランは個人利用を想定しており、収益化や商用目的での利用には有償プランへのアップグレードが求められます。そのため、業務利用を前提にツールを比較・検討する際は、無料枠はあくまで機能検証用として位置づけておくと、導入判断がスムーズになるでしょう。

API連携は有償プランからの検討になりやすい

Fish Audioを外部サービスや自社プロダクトへ組み込む場合、事前にプランの違いを確認しておくことが重要です。料金ページによると、APIアクセスはPlusおよびProプランに含まれており、FAQでも有償プランの加入者が従量課金APIを利用できると案内されています。そのため、無料の範囲でAPIとの連携まで試したい企業にとっては、APIの入口が有償寄りに設定されている点が比較検討時のポイントになりやすいといえます。

月ごとの利用量に波があると使い切りづらい

Fish Audioのクレジットは毎月補充される仕組みですが、未使用分は翌月へ繰り越されません。そのため、月によって利用量に大きな波がある運用では、クレジットを使い切れない月が生じやすくなります。毎月一定量を使うことを前提としたサービスであるため、利用量が不規則な場合は、プランや使い方をあらかじめ検討しておくと、より無駄なく活用しやすくなるでしょう。

カテゴリ別マーケットシェア

2026年3月 FitGap調査

Fish Audioの音声合成AI（ボイスクローン）マーケットシェア

事業規模

中小

中堅

大企業

実体験レビュー音声生成AI

LLMベースの音声生成で、ナレーション用途なら日本語の自然さは頭一つ抜けている

無調整でここまで自然な日本語が出る

Fish Audioで最初に驚いたのは、テキストを貼り付けて何も調整せずに生成しただけで、他の製品とは明らかに違う自然さの音声が出てきたことです。特に印象的だったのは、プロンプトに書いていない「え～」のような間が自然に挿入される点です。VOICEVOXやAivisSpeechでは文字列通りに読み上げるのが基本ですが、Fish Audioは文脈から「ここで間を取るのが自然だ」と判断して、人間が実際にしゃべるときのようなテンポで生成してくれます。イントネーションや抑揚も、機械的な定型パターンではなく、文の内容に合わせて変化します。アクセントの手動調整機能はありません。ただ、調整が要らないレベルで最初から自然なので、「不自然さを直す」という作業自体が発生しませんでした。ナレーション・解説系の用途であれば、今回検証した6製品の中で最も人間らしい音声が出る製品です。

アクセント調整はないが、調整が不要なレベルの音声生成だった

1回の生成で2パターン出力される

Fish Audioでは、「音声を生成する」ボタンを1回押すと、サンプルAとサンプルBの2パターンが自動的に生成されます。同じテキスト・同じ音声モデルでも、間の取り方や抑揚に微妙な違いがあり、好みのほうを選んでダウンロードできます。これはVOICEVOXやAivisSpeechにはない設計です。他の製品では同じ設定で生成すればほぼ同じ結果が出ますが、Fish AudioのLLMベースのアーキテクチャでは生成のたびに微妙な揺らぎが入ります。ナレーション用途では「もう少し柔らかいトーンが欲しい」というときに、再生成やパラメータ調整をしなくても2つの選択肢が提示されるので、ワークフローとしては効率的です。ただし裏を返せば、毎回同じ結果が出るわけではないということでもあります。完全に同一の音声を再現したい場合には向きません。

テキストを貼り付けて生成するだけで、サンプルA（0:25）とサンプルB（0:26）の2パターンが出力された

感情タグで音声の感情表現をコントロールできる

Fish Audioには「オーディオタグ」という機能があり、テキスト中に [興奮] [強調] [怒って] などのタグを埋め込むことで、音声の感情表現を指定できます。特に便利なのは「強化する」ボタンです。テキスト入力欄の右下にあるこのボタンを押すと、文章の内容をAIが解析して、適切な感情タグを自動で挿入してくれます。例えばゲームの実況風テキストでは、[強調] [興奮して] [怒って] [くすくす笑い] [短い間] といったタグが文中の適切な位置に自動配置されました。タグの種類は大きく2つあり、「感情的なトーン」（angry, sad, excited など音声全体のトーンを変えるもの）と「オーディオエフェクト」（laughing, sighing など効果音的な要素を挿入するもの）に分かれています。UI上のプリセットタグは英語表記ですが、実際に日本語テキストで試した感触としては、「強化する」ボタンで挿入される日本語タグのほうが効きやすいと感じました。また、感情的なトーン系のタグはしっかり反映されましたが、オーディオエフェクト系は2パターンのうち片方にだけ入ったり入らなかったりと、やや不安定な印象がありました。

"強化する"ボタンを押すと、文章の内容に合わせて日本語の感情タグが自動挿入される

感情的なトーンとオーディオエフェクトの2カテゴリから選べるオーディオタグ一覧

セリフ系ではブロック内の感情変化に課題がある

ナレーション系では圧倒的な自然さを見せるFish Audioですが、感情の変化が激しいセリフ系テキストでは課題も見えました。 1つのテキストブロック内で喜びから悲しみへ感情が変化するような場合、全体のトーンが喜び寄りか悲しみ寄りに統一されてしまい、細かい感情の切り替わりが弱くなる傾向がありました。これは、LLMがテキスト全体の文脈から韻律を一括で決めるアーキテクチャの特性によるもので、「文脈を読む力」が強すぎることの裏返しです。また、テキスト中の「....」（連続するピリオド）をLLMが過剰に解釈し、そこから先の音声が極端に低く暗いトーンに崩れるケースもありました。ホラーのように聞こえるほど極端な変化が起きることがあり、生成結果の安定性という点ではやや注意が必要です。感情タグをあらかじめ挿入しておくことである程度コントロールできますが、ナレーション系のようなタグ不要の自然さは期待しないほうが良いです。

200万以上のコミュニティ音声モデルとボイスクローン機能

Fish Audioには他の音声読み上げ製品にない2つの独自要素があります。 1つ目は「コミュニティ音声モデル」です。ユーザーが作成したボイスモデルがプラットフォーム上に200万以上公開されており、言語・性別・年齢・スタイルで検索して選べます。日本語フィルターで絞り込むと、「元気な女性」（161.7K使用）や「ふうか」（98.9K使用）などの人気モデルが並びます。VOICEVOXのずんだもんやA.I.VOICEの琴葉茜のような「公式キャラクター」ではなく、個人ユーザーが作成・公開したモデルを自由に使える仕組みです。 2つ目は「ボイスクローン」機能です。最短10秒の音声ファイルをアップロードするだけで、自分の声のAIモデルを作成できます。MP3・WAV・M4Aなど主要な音声形式に対応しており、その場でマイク録音することも可能です。無料プランでは録音上限が90秒ですが、有料プランでは210秒まで拡張されます。自分の声で大量のナレーションを生成したい場合、毎回録音する必要がなくなります。

日本語の音声モデルだけでも多数公開されており、使用回数順に並べて選べる

最短10秒の音声でボイスモデルを作成でき、無料プランでは90秒まで対応

利用前に知っておきたいこと

無料プランの生成上限が非常に厳しい点は把握しておく必要があります。無料プランでは1回の生成あたり500バイト（日本語で約170文字）までしか入力できません。約200文字のテストプロンプトを入れた時点で上限を超え、生成できませんでした。無料プランで確認できるのはごく短いテキストの品質チェック程度で、実用的な長さのナレーション制作にはPlus（月額$11）以上のプランが必要です。コミュニティ音声モデルの権利関係にも注意が必要です。コミュニティには有名人やキャラクターの声を模したモデルも公開されています。Fish Audio側は利用規約で「違法な使用について一切の責任を負わない」と明記しており、モデルの権利確認はユーザーの自己責任です。商用利用を考える場合は、自分の声をクローンしたモデルか、権利が明確なモデルのみを使用するのが安全です。運営会社がグローバル分散型の構造である点も知っておくと良いでしょう。法人はアメリカ・デラウェア州のHanabi AI Inc.ですが、開発拠点は中国・深セン、ビジネス拠点が東京とシリコンバレーに分散しています。日本法人（HanabiAI株式会社）も東京都に登記されています。サービス継続性やサポート体制を気にされる方は、この運営構造を把握しておくと良いでしょう。