NVIDIAが開発した最新の自動音声認識(ASR)モデル「Parakeet」が、会話AIの分野で注目を集めています。Suno.aiとの共同開発により、0.6から1.1億のパラメータを持つモデル群が構築され、英語の音声を高精度に書き起こす能力を備えています。64,000時間の音声データによる広範なトレーニングを受けたParakeetは、さまざまなアクセントや環境音にも強く、OpenAIのWhisper v3を上回る性能を示しています。多言語対応と背景ノイズへの強さが特徴で、MITライセンスのもとでオープンソース化されているため、会話AIの分野でのイノベーションとアクセシビリティの促進が期待されます。NVIDIA NeMoのParakeetは、音声認識技術の可能性を再定義する重要な進歩です。
from NVIDIA Unveils Parakeet: The Best Performing Automatic Speech Recognition (ASR) Model.