株式会社DubGuildは、「世界で最も優れた音声言語基盤モデル」を作るため、研究開発を行っています。
開発経過ブログ(リンク)
大規模言語モデル(LLM)は近年、テキストベースの対話能力によって大きな注目を集め、我々の生産性を改善しました。一方で、人間の主要なコミュニケーションでは音声で行われているため、音声ベースのモデルへの移行が求められています。
これを実現する最も素朴な方法は、「音声認識(ASR)+LLM+音声合成(TTS)」というパイプラインを用いることであり、入力音声をまずテキストに書き起こし、それをLLMで処理し、さらに音声へ再変換するというものです。
しかし、この方式には本質的な限界があります。音声をテキストへ変換する過程で、感情、話者性、抑揚、間といった重要な情報が失われる他、また複数のモジュールを直列に接続することで、遅延の増大や誤差の蓄積も避けられません。
こうした課題を克服するために注目されているのが、テキスト変換を介さず、音声を直接理解・生成するエンドツーエンドの枠組みである音声言語基盤モデル(Spoken Language Model; SLM)です。
SLMの研究は近年急速に進展しており、SoundStorm(2023)やMoshi(2024)などに代表される手法では、自然で低遅延な音声対話の実現可能性が示されてきました。一方で、言語モデルと比較して遥かに知性が不足しており、実用には至りませんでした。
弊社では、このSLMをさらに大規模化・高性能化し、自然な音声対話能力と高い知的処理能力を兼ね備えたLarge-Scale Spoken Language Model(LSLM)の実現を目指して研究開発を進めています。
こちらのGoogle Formからご応募下さい。
高度専門職ビザ、永住権取得のためのサポートを積極的に行っています。ご相談ください。