Eleven v3 オーディオタグ: AIオーディオに状況認識を

Eleven v3 オーディオタグでAI音声を強化。トーン、感情、テンポをコントロールし、自然な会話を実現。テキスト読み上げに状況認識を追加。

v3

オーディオタグは新しい

最もシンプルな形では、オーディオタグは角括弧内の単語です。モデルはこれをパフォーマンスの指示として解釈します。つまり、感情の変化や状況の変化を反映するために、文中での表現を調整できます。AIに状況認識の度合いを持たせることが可能です。

AI音声における状況認識とは?

Background
Background

状況認識とは、AIがその瞬間に合わせて表現を適応させることです。オーディオタグを使うことで、モデルが何を言うかだけでなく、どのように応答するかもコントロールできます。

[SHOUTING]タグで緊迫感を加えたり、[WHISPER]で警告を和らげたり、[SIGH]でためらいを示したり、タグはナレーションをパフォーマンスに変えます。特に高コンテクストや動的なシーンで価値があります。

ただ読むだけでなく、演じる

11 Unitedと12 Unitedのサッカー試合のVeo 3ハイライトビデオをスクリプト化すると想像してください。アクションに合わせて緊張感を高めたい場合:「彼がディフェンダーをかわして—[EXCITED]クロスが来た—[SHOUTING]ゴール!」

または、オーディオブックの緊迫した瞬間を声に出す場合:「[WHISPERING]誰かが家にいると思う。[PAUSE]静かにして。」

これらは単なるスタイルの追加ではありません。その瞬間を定義し、感じ方を導きます。モデルは読むのではなく、演じます。

状況に応じた一般的なタグ

オーディオタグを使って、さまざまな感情や身体的な指示をシミュレートできます:

  • 感情のトーン: [EXCITED], [NERVOUS], [FRUSTRATED], [TIRED]
  • 反応: [GASP], [SIGH], [LAUGHS], [GULPS]
  • 音量とエネルギー: [WHISPERING], [SHOUTING], [QUIETLY], [LOUDLY]
  • ペースとリズム: [PAUSES], [STAMMERS], [RUSHED]

タグを重ねてニュアンスを加えることができます:「[NERVOUSLY]私...これがうまくいくかどうか分からない。[GULPS]でも、とにかくやってみよう。」

操縦できるパフォーマンス

Eleven v3は、より深いコンテクストモデルでこれらのタグをサポートします。トーンを途中で変えたり、中断を処理したり、流れを維持したりできます。スクリプトを書き直さずに、より自然な表現を提供します。

ボイスデザイナー、ゲームデベロッパー、ストーリーテラーにとって、新しいクリエイティブな層を解放します。単にセリフを書くのではなく、演出するのです。

適切な声の選択

プロフェッショナル ボイスクローン(PVC)は現在、Eleven v3に完全に最適化されておらず、以前のモデルに比べてクローンの品質が低下する可能性があります。このリサーチプレビュー段階では、v3の機能を使用する必要がある場合、インスタント ボイスクローン(IVC)やデザインされた声をプロジェクトに選ぶのが最善です。PVCのv3への最適化は近い将来に予定されています。

ElevenLabsチームによる記事をもっと見る

ElevenLabs

最高品質のAIオーディオで制作を

無料で始める

すでにアカウントをお持ちですか? ログイン