Open Position | Notion

株式会社DubGuildは、「世界で最も優れた音声言語基盤モデル」を作るため、研究開発を行っています。

開発経過ブログ（リンク）

音声言語基盤モデル（Spoken Language Model; SLM）とは

大規模言語モデル（LLM）は近年、テキストベースの対話能力によって大きな注目を集め、我々の生産性を改善しました。一方で、人間の主要なコミュニケーションでは音声で行われているため、音声ベースのモデルへの移行が求められています。

これを実現する最も素朴な方法は、「音声認識（ASR）＋LLM＋音声合成（TTS）」というパイプラインを用いることであり、入力音声をまずテキストに書き起こし、それをLLMで処理し、さらに音声へ再変換するというものです。

しかし、この方式には本質的な限界があります。音声をテキストへ変換する過程で、感情、話者性、抑揚、間といった重要な情報が失われる他、また複数のモジュールを直列に接続することで、遅延の増大や誤差の蓄積も避けられません。

こうした課題を克服するために注目されているのが、テキスト変換を介さず、音声を直接理解・生成するエンドツーエンドの枠組みである音声言語基盤モデル（Spoken Language Model; SLM）です。

SLMの研究は近年急速に進展しており、SoundStorm（2023）やMoshi（2024）などに代表される手法では、自然で低遅延な音声対話の実現可能性が示されてきました。一方で、言語モデルと比較して遥かに知性が不足しており、実用には至りませんでした。

弊社では、このSLMをさらに大規模化・高性能化し、自然な音声対話能力と高い知的処理能力を兼ね備えたLarge-Scale Spoken Language Model（LSLM）の実現を目指して研究開発を進めています。

こちらのGoogle Formからご応募下さい。

高度専門職ビザ、永住権取得のためのサポートを積極的に行っています。ご相談ください。