Eleven v3 (アルファ) の紹介

最も表現力豊かなテキスト読み上げモデル

v3

私たちは発表できることを嬉しく思います。Eleven v3 (アルファ版) — 最も表現力豊かなテキスト読み上げモデルです。

この研究プレビューは、音声生成に前例のないコントロールとリアリズムをもたらします:

  • 70以上の言語
  • マルチスピーカーダイアログ
  • [excited], [whispers] あるいは [sighs]といったオーディオタグ

Eleven v3 (アルファ版) は以前のモデルよりもプロンプトエンジニアリングが必要ですが、生成される音声は驚くべきものです。

ビデオ、オーディオブック、メディアツールで作業している場合、これにより新たな表現力が解放されます。リアルタイムや会話型の使用ケースには、現在はv2.5 TurboまたはFlashをお勧めします。v3のリアルタイムバージョンは開発中です。

Eleven v3は本日から当社のウェブサイトで利用可能です。パブリックAPIアクセスは近日公開予定です。早期アクセスをご希望の場合は、営業にお問い合わせください

新しいモデルのElevenLabsアプリでの使用は6月末まで80%オフです。登録はこちら

v3を開発した理由

Multilingual v2をリリースして以来、音声AIはプロの映画制作、ゲーム開発、教育、アクセシビリティの分野で広く採用されてきました。しかし、一貫した課題は音質ではなく『表現力』でした。より豊かな感情表現や会話の途中での割り込み、リアルで自然なやり取りを実現することが難しかったのです。

Eleven v3はこのギャップを埋めるために開発されました。最初から、ため息をついたり、ささやいたり、笑ったり、反応したりする声を実現するよう設計されており、本当に生き生きとした、応答性の高い音声を生み出します。

Eleven v3(アルファ版)の新機能

機能 それによって可能になること
オーディオタグ トーンや感情、非言語的な反応をスクリプト内で直接制御
ダイアログモード 複数話者による自然なテンポと割り込みのある会話
70以上の言語対応 高い需要のある主要な世界言語を完全に網羅
テキストの高度な理解 テキスト入力から得られる、より自然な強調、リズム、そして表現力

v3の音声を実際に体験してみてください

Background
Background

オーディオタグの使い方

オーディオタグはスクリプト内にインラインで記述し、小文字の角括弧[]でフォーマットします。オーディオタグの詳細についてはドキュメントのv3プロンプトガイドを参照ください。

注)「プロフェッショナルボイスクローン(PVC)」は現在、Eleven v3 に対して完全には最適化されていないため、以前のモデルと比べてクローンの品質がやや低下する可能性があります。リサーチプレビュー段階の現時点では、v3 の機能を利用したい場合、インスタントボイスクローン(IVC)やボイスデザインを使用するのが最適です。PVC の v3 対応最適化は、近い将来に予定されています。

例えば、次のようにプロンプトを入力できます:『[whispers] 何かが近づいている… [sighs] その気配がする。』また、より表現力豊かに制御したい場合は、複数のタグを組み合わせることも可能です。

1[happily][shouts] We did it! [laughs].

複数話者による会話の作成

Eleven v3は既存のテキスト読み上げ(Text to Speech)エンドポイントで対応しています。さらに、新たにText to Dialogue用のAPIエンドポイントを導入しました。話者ごとの発話を表す構造化されたJSONオブジェクトの配列を提供すると、モデルが一体感のある重なり合う音声ファイルを生成します:

1[
2 {"speaker_id": "scarlett", "text": "(cheerfully) Perfect! And if that pop-up is bothering you, there’s a setting to turn it off under Notifications → Preferences."},
3 {"speaker_id": "lex", "text": "You are a hero. An actual digital wizard. I was two seconds from sending a very passive-aggressive support email."},
4 {"speaker_id": "scarlett", "text": "(laughs) Glad we could stop that in time. Anything else I can help with today?"}
5]
6

詳しくはこちらを参照ください。

v3は当社で最も表現力の高いモデルです

Background
Background

価格と提供状況

プラン リリース記念プロモーション 30日後
UI (Webより購入) 80%割引き (約5分の1の価格) Multilingual V2と同じ
API (Webより購入 & エンタープライズ) Multilingual V2と同じ 同左
エンタープライズ UI Multilingual V2と同じ 同左

v3を使うには:

  • Model Picker を使ってEleven v3 (alpha)を選択してください

API へのアクセスと Studio でのサポートはまもなく利用可能になります。先行アクセスをご希望の方は営業にお問い合わせください。

v3を使用しない方がよい状況

Eleven v3 (アルファ) は以前のモデルよりもプロンプトエンジニアリングが必要です。動作すれば素晴らしい結果が得られますが、信頼性と高いレイテンシーのため、リアルタイムや会話型のユースケースには適していません。これらには Eleven v2.5 Turbo/Flash をお勧めします。

詳しくはv3ドキュメンテーション 及びFAQを参照ください。

今すぐお試しください

Background
Background
  1. ElevenLabs UIにログインします
  2. ドロップダウンからv3 (alpha) を選択します
  3. テキスト・スクリプトを貼り付けます — タグあるいはダイアログを使います 
  4. 音声を生成します

没入型ストーリーテリングから映画制作パイプラインまで、新しいユースケースでv3をどのように活用していただけるか、私たちはとても楽しみにしています。

Eleven v3は、2025年6月末まで、UIを通じて利用するセルフサービスユーザー向けに80%割引となっています。

それらはすべてEleven v3モデルのみで生成されました。

Text to Dialogueは複数の声を織り交ぜて、スムーズなやり取りを生み出します。プロソディ(韻律)や感情の幅を合わせ、オーディオタグからの指示を取り入れることで、魅力的な会話を生成する大きな進歩を実現しています。

イレブンv3(アルファ版)の公開APIは近日公開予定です。アーリーアクセスについては 営業にお問い合わせください。

Eleven v3は多様なオーディオタグに対応しており、タグの効果は音声や文脈によって多少異なります。追加の情報は プロンプトガイド を参照ください。

以下の言語に対応しています。アフリカーンス語(afr)、アラビア語(ara)、アルメニア語(hye)、アッサム語(asm)、アゼルバイジャン語(aze)、ベラルーシ語(bel)、ベンガル語(ben)、ボスニア語(bos)、ブルガリア語(bul)、カタロニア語(cat)、セブアノ語(ceb)、チチェワ語(nya)、クロアチア語(hrv)、チェコ語(ces)、デンマーク語(dan)、オランダ語(nld)、英語(eng)、エストニア語(est)、フィリピノ語(fil)、フィンランド語(fin)、フランス語(fra)、ガリシア語(glg)、ジョージア語(kat)、ドイツ語(deu)、ギリシャ語(ell)、グジャラート語(guj)、ハウサ語(hau)、ヘブライ語(heb)、ヒンディー語(hin)、ハンガリー語(hun)、アイスランド語(isl)、インドネシア語(ind)、アイルランド語(gle)、イタリア語(ita)、日本語(jpn)、ジャワ語(jav)、カンナダ語(kan)、カザフ語(kaz)、キルギス語(kir)、韓国語(kor)、ラトビア語(lav)、リンガラ語(lin)、リトアニア語(lit)、ルクセンブルク語(ltz)、マケドニア語(mkd)、マレー語(msa)、マラヤーラム語(mal)、標準中国語(普通話)(cmn)、マラーティー語(mar)、ネパール語(nep)、ノルウェー語(nor)、パシュトー語(pus)、ペルシア語(fas)、ポーランド語(pol)、ポルトガル語(por)、パンジャーブ語(pan)、ルーマニア語(ron)、ロシア語(rus)、セルビア語(srp)、シンド語(snd)、スロバキア語(slk)、スロベニア語(slv)、ソマリ語(som)、スペイン語(spa)、スワヒリ語(swa)、スウェーデン語(swe)、タミル語(tam)、テルグ語(tel)、タイ語(tha)、トルコ語(tur)、ウクライナ語(ukr)、ウルドゥー語(urd)、ベトナム語(vie)、そしてウェールズ語(cym)です。

ElevenLabsチームによる記事をもっと見る

Customer stories
eagr_case study

Eagr.ai Supercharges Sales Training with ElevenLabs' Conversational AI Agents

Eagr.ai transformed sales coaching by integrating ElevenLabs' conversational AI, replacing outdated role-playing with lifelike simulations. This led to a significant 18% average increase in win-rates and a 30% performance boost for top users, proving the power of realistic AI in corporate training.

ElevenLabs

最高品質のAIオーディオで制作を

無料で始める

すでにアカウントをお持ちですか? ログイン