テキストから音声へ : AI時代における期待の高まり

HAL 9000は1968年以来多くの人々に影響を与えてきましたが、宇宙船の乗組員の一員として機能し、通信するコンピュータというアイデアは興味深いものでした。そして今、HALの孫たちが私たちの中にいます : Siri、Google、Cortana、そしてその他多く。孫たちはまだHALほど賢くはないですが、既に本物の仕事をしています。そして今、彼らをより賢く、より有能にすること、そして彼らの給料を稼ぐことは、私たちの努力にかかっています。

現在の仮想アシスタントは、複数のコンポーネントで構成されており、1つの組織が単独で機能させることはできない。それは、より人間的で、表現力があり、ブランド化されたtext-to-speech ( TTS ) 、別名speech synthesis (テキストを会話に変える部分) を提供することが重要です。TTSの重要性とHAL以来の大幅な改善にもかかわらず、セルフサービスの音声体験を改善する目的で、合成音声をより自然で人間に近いものにするために、より多くのことができます。

 

ニューラルネットトレーニングの効果

仮想アシスタントには、3つの主要なコンポーネントがあります。それは、ユーザーが話した音声をテキストに変換する自動音声認識 ( ASR ) です。そのテキストを (明示的または暗黙的に) 分析し、システムの応答が何であるべきかを判断する自然言語理解 ( NLU ) 要素;応答テキストを音声に変換するtext-to-speech要素があります。

過去20年間で、3つの要素すべてが技術的地殻変動に関与している。以前は、人間のプログラマが書いていました。しかし、現在のところ、多くの手作りのプログラムが脇役としての役割を維持している一方で、番組の主役は、バーチャルアシスタントシステムの3つの主要コンポーネントすべてについて、例から学ぶプログラムです。現在では、入力から所望の出力への進行が、仮想的なif-thenワイヤのネットワークによって処理され、その伝送強度が自動的に設定され、適切な結果が得られるまでリセットされる、神経系である傾向があります。

ニューロン処理に勝るものはありません。明示的な指示なしで学ぶことができます:非常に広いコンテキストを考慮しながら、複数レベルの抽象化を学習できます。おまけに、非常に高速な出力が得られます。その使用は、仮想アシスタントの音声認識と自然言語理解コンポーネントに劇的な改善をもたらしました。しかし、最近では音声合成の要素にもニューラル法が用いられるようになってきていましたが、これまでのところ、 TTSの改善はASRやNLUの改善よりも劇的ではないと判断されています。

結局のところ、テキスト読み上げの結果は、主に特定のユースケース内の音質の観点から測定されます。その品質は、中立的なスタイルで話す一方通行の音声システムで使用するために、数年前に比較的許容できるレベルに達しました。しかし、今日の会話エージェントは、より質の高い期待を高めている。もはや機械が話すだけでは十分ではない。私たちは今、人間に近い自然さと表現力を持つスピーチを期待しています。

 

音声システムから会話エージェントへ

仮想アシスタントが登場するにつれ、人間とコンピューターの対話の世界は、高度に構造化され、焦点が絞られた対話から、自由で幅広い会話へと移行している。このような変化に伴い、TTSの遅延はより顕著になり、問題となっている。人間のような合成音声の重要性を強調した。HALが極端な解雇を経験しても維持してきた中立的な話し方ではもはや十分ではありません。

今後、システムを維持するためには、有能で有益であるだけでなく、魅力的で、特定のタスクによく適合したものでなければなりません。また、オーダーメイドの音声もすぐに利用できるようにする必要があります。ほとんどの場合、数か月後ではなく、必要なときに音声が配信されます。

Genesys AppFoundryのパートナーであるSpeechmorphingは、TTS開発の3つの重要な領域を強調しています。

確立された企業ブランドと声のトーンに合わせたカスタムテキスト読み上げ機能。わずか数分のオーディオ素材と数日のターンアラウンドで作成されます。
さまざまなトーンとスタイルで表現力豊かな声を実現し、生き生きとした状況に適したユーザー操作をサポートします。

ダイアログのカスタマイズとボイス調整機能により、ボーカルセグメントの初期状態のパフォーマンスが、目の前の会話に必要なレベルに達していない場合でも、ディレクターがアクターをガイドするように、直感的かつ詳細に、完璧になるまで変更できます。
SpeechmorphingはGenesys CloudTMプラットフォームのPremiumAppとして利用できます。また、Genesys Voice Platformおよび業界をリードする会話型人工知能プラットフォームともシームレスに統合されています。スピーチモーフィングは、顧客との対話を次のレベルに引き上げることで、顧客体験の変革を支援する。Speechmorphingの詳細については、AppFoundry MarketplaceのGenesys Cloud、PureConnect、Genesys Multicloud CXTM製品のリストをご覧ください。

 

このブログは、人間と機械のコミュニケーションを改善することを目的とした自然言語音声合成会社Speech Morphing 、 Inc.の主任言語学者であるMark Seligman博士が共同執筆したものです。Markはまた、1998年にSpoken Translation 、 Inc.の創設者でもあります。

シェア: