TTS(音声合成)技術とは
TTS(Text-to-Speech)は、テキストを自然な音声に変換する技術です。 当社は、 全工程をフルスクラッチで開発した純国産TTSエンジンを保有。 120ミリ秒という人間の会話と区別できない超低遅延と、 感情豊かな表現力を両立させた、次世代の音声合成技術を実現しています。
LivetoonのTTS技術- 4つの強み
1. 圧倒的な日本語読み上げ精度
日本語音声合成の最大の課題である「漢字の読み分け」を克服。「生年月日」「鬼滅の刃」といった難読語や固有名詞も正確に発音します。
他社最新モデルとの比較検証では、以下の驚異的な精度向上を達成:
- エンターテインメント領域:91.5%(他社比+26.9ポイント)
- ビジネス領域:90.0%(他社比+32.5ポイント)
- 総合話題カテゴリ:90.9%(他社比+9.1ポイント)
創作物の難読漢字、最新のネットスラング、専門用語まで、 あらゆるテキストで90%を超える安定した読み上げ精度を実現しています。
2. 人間を超える超低遅延
短文(20文字)で120ミリ秒という驚異的な処理速度を実現。 これは他社モデルの約2倍の速さで、100ミリ秒台という「人の会話と区別できない体感速度」の壁を突破しました。
- 短文(20文字):120ミリ秒
- 長文(200文字):760ミリ秒
- 環境:NVIDIA T4(VRAM 16GB)での実測値
この超低遅延により、AIキャラクターとの対話、電話応答システム、 リアルタイムナレーションなど、即応性が求められるあらゆる場面でストレスのない自然な音声体験を提供します。
3. 感情が宿る豊かな表現力
単なるテキストの読み上げではなく、言葉に込められた感情やニュアンスを音声で表現。日本語特有の繊細なイントネーション(抑揚)を完璧に再現します。
- 感情表現:喜び、悲しみ、怒り、驚きなど多彩な感情を自在に表現
- 自然な「間」:言葉と言葉の間に生まれる絶妙な間(ま)を制御
- イントネーション制御:文脈に応じた自然な抑揚を自動生成
- 話速調整:シーンに応じた最適な話速で発話
これらの要素を総合的にコントロールすることで、 聞く人の心を動かす「本物の声」を実現しています。
4. 高速・高精度なボイスクローニング
わずか15分の音声データから、その人の声質や話し方を忠実に再現するクローンボイスを最短1分で生成可能。
フルスクラッチ開発の技術優位性
当社のTTSが「超低遅延」「超高品質」「超高精度」という、 本来トレードオフの関係にある3つの要素を最高水準で両立できたのは、 既存技術の組み合わせではない、ゼロからのフルスクラッチ開発にこだわったからです。
- テキスト解析エンジン:日本語の文法・文脈を深く理解する独自アルゴリズム
- 感情表現:広告・Webデザインでの素材生成
- 音響モデル:感情表現に特化した独自アーキテクチャ
- ボコーダー:超低遅延を実現する軽量・高速設計
すべてのコンポーネントを日本語に完全特化させ、相互に最適化することで、 他社には模倣不可能な圧倒的性能を実現しました。
活用シーン
当社のTTS技術は、人間と区別がつかない自然な音声が求められるあらゆる場面で、新たな価値を創造しています。
- AIキャラクターサービス:「kaiwa」での感情豊かな対話体験、キャラクターの個性を音声で表現
- カスタマーサポート:24時間365日、常に明るく丁寧な音声応対を実現
- 電話自動応答:IVRシステムの自然な音声案内、ストレスフリーな電話体験
- 医療・介護現場:服薬リマインダー、診療案内など、温かみのある音声サポート
- 教育コンテンツ:教材の音声化、語学学習での正確な発音指導
- 医療・介護現場:服薬リマインダー、診療案内など、温かみのある音声サポート
- エンターテインメント:ゲーム・アニメのキャラクターボイス、オーディオブック制作
- 放送・配信:ニュース原稿の自動読み上げ、ライブ配信での音声生成
今後の展開
現在のモデルは中規模データによるトレーニングでこの水準を実現していますが、 今後10倍以上のデータでの大規模トレーニングを予定しており、 さらなる精度・表現力の向上を目指しています。
また、以下の機能拡張も計画しています:
- 多言語対応:英語、中国語、韓国語など主要言語への展開
- リアルタイム感情制御:対話の流れに応じた動的な感情表現
- 歌声合成:自然な歌声の生成機能
- 環境音・効果音統合:より臨場感のある音声体験の実現
「人間と区別がつかない声」での自然な会話体験を必要とするあらゆる現場に、 "日本語音声の新しい標準"として、最適な選択肢をお届けしてまいります。
TTS技術の導入について、お気軽にご相談ください。