Eleven v3 オーディオタグ: AIオーディオに状況認識を

2025年6月9日 • 1 分で読めます

A man with glasses and a beard looking to the side in a room with bookshelves.

Ryan Morrison, Growth

Eleven v3 オーディオタグでAI音声を強化。トーン、感情、テンポをコントロールし、自然な会話を実現。テキスト読み上げに状況認識を追加。

営業に連絡

オーディオタグは新しい

最もシンプルな形では、オーディオタグは角括弧内の単語です。モデルはこれをパフォーマンスの指示として解釈します。つまり、感情の変化や状況の変化を反映するために、文中での表現を調整できます。AIに状況認識の度合いを持たせることが可能です。

AI音声における状況認識とは？

状況認識とは、AIがその瞬間に合わせて表現を適応させることです。オーディオタグを使うことで、モデルが何を言うかだけでなく、どのように応答するかもコントロールできます。

[SHOUTING]タグで緊迫感を加えたり、[WHISPER]で警告を和らげたり、[SIGH]でためらいを示したり、タグはナレーションをパフォーマンスに変えます。特に高コンテクストや動的なシーンで価値があります。

ただ読むだけでなく、演じる

11 Unitedと12 Unitedのサッカー試合のVeo 3ハイライトビデオをスクリプト化すると想像してください。アクションに合わせて緊張感を高めたい場合：「彼がディフェンダーをかわして—[EXCITED]クロスが来た—[SHOUTING]ゴール！」

または、オーディオブックの緊迫した瞬間を声に出す場合：「[WHISPERING]誰かが家にいると思う。[PAUSE]静かにして。」

これらは単なるスタイルの追加ではありません。その瞬間を定義し、感じ方を導きます。モデルは読むのではなく、演じます。

状況に応じた一般的なタグ

オーディオタグを使って、さまざまな感情や身体的な指示をシミュレートできます：

感情のトーン： [EXCITED], [NERVOUS], [FRUSTRATED], [TIRED]
反応： [GASP], [SIGH], [LAUGHS], [GULPS]
音量とエネルギー： [WHISPERING], [SHOUTING], [QUIETLY], [LOUDLY]
ペースとリズム： [PAUSES], [STAMMERS], [RUSHED]

タグを重ねてニュアンスを加えることができます：「[NERVOUSLY]私...これがうまくいくかどうか分からない。[GULPS]でも、とにかくやってみよう。」

操縦できるパフォーマンス

Eleven v3は、より深いコンテクストモデルでこれらのタグをサポートします。トーンを途中で変えたり、中断を処理したり、流れを維持したりできます。スクリプトを書き直さずに、より自然な表現を提供します。

ボイスデザイナー、ゲームデベロッパー、ストーリーテラーにとって、新しいクリエイティブな層を解放します。単にセリフを書くのではなく、演出するのです。

適切な声の選択

プロフェッショナルボイスクローン（PVC）は現在、Eleven v3に完全に最適化されておらず、以前のモデルに比べてクローンの品質が低下する可能性があります。このリサーチプレビュー段階では、v3の機能を使用する必要がある場合、インスタントボイスクローン（IVC）やデザインされた声をプロジェクトに選ぶのが最善です。PVCのv3への最適化は近い将来に予定されています。

ElevenLabsチームによる記事をもっと見る

リサーチ

リサーチ

Eleven v3 (アルファ) の紹介

最も表現力豊かなテキスト読み上げモデル

リソース

リソース

Eleven v3 オーディオタグとは何か — そしてその重要性

ElevenLabsのオーディオタグは、AI音声の感情、ペース、サウンドエフェクトを制御します。

最高品質のAIオーディオで制作を

無料で始める

すでにアカウントをお持ちですか？ログイン