研究者たちは、音声生成の分野で革新的な進歩を遂げ、MAGNET(Masked Audio Generation using Non-autoregressive Transformers)という新しい方法を発表しました。この方法は、非自己回帰トランスフォーマーを使用して、テキストから音楽やオーディオを生成することができ、速度と効率を損なうことなく高品質な結果を約束します。MAGNETは、トレーニング中にマスキングスケジューラーによって選ばれたマスクされたトークンの範囲を予測し、推論フェーズでは徐々に出力シーケンスを構築します。さらに、生成されたオーディオの品質を向上させるために、外部の事前訓練されたモデルを使用してMAGNETの予測を再スコアリングする新しい方法が導入されました。
また、性能を最適化するために、自己回帰モデルと非自己回帰モデルを組み合わせたハイブリッドバージョンのMAGNETも研究されています。このハイブリッドMAGNETは、初期シーケンスを自己回帰的に生成し、その後のシーケンスを並列デコーディングすることで、速度と生成品質のバランスを実現しています。
MAGNETは、従来の圧縮されたオーディオ信号の表現を使用するモデルとは異なり、生のオーディオ波形に直接生成モデリングを適用することで、オーディオ生成技術の進化において大きな一歩を踏み出しています。既存の生成モデルと比較して、MAGNETは高速でありながらベースラインのパフォーマンスに匹敵し、特にインタラクティブなアプリケーションに適しています。
研究チームは、モデルの再スコアリングや高度な推論方法に関する将来の可能性を探求することにコミットしており、外部スコアリングモデルを取り入れた非左から右へのモデルデコーディングをさらに洗練させることを約束しています。MAGNETはテキスト条件付きオーディオ生成の新時代のリズムとして登場し、速度、品質、革新のシンフォニーを迎え入れています。
from MAGNET by Meta: Revolution in Audio Generation.