Audio Flamingo Next - NVIDIAなどが開発したオープンソースの音声言語モデル - AiBoss

Audio Flamingo Nextとは何ですか？

Audio Flamingo Nextは、NVIDIAとメリーランド大学が共同でオープンソース化した次世代オーディオ言語モデル（LALM）です。Audio Flamingoシリーズの最新バージョンとして、最大30分に及ぶ複雑なオーディオ入力をサポートし、音声、環境音、音楽を統合的に理解します。このモデルは、時間軸に基づいた推論にTemporal Audio Chain-of-Thoughtテクノロジーを採用し、100万時間以上の学習データを備えています。また、20以上のオーディオ理解ベンチマークにおいて、同規模のオープンソースモデルを上回る性能を発揮し、商用クローズドソースモデルの強力な競合製品となっています。

Audio Flamingo Nextの主な機能

長時間の音声理解最大30分までの複雑な音声セグメントの入力をサポートし、音声、音楽、環境音を含む混合音声シナリオにも対応可能で、数秒から数時間にわたる統一的な理解を実現します。
時間軸に基づいた推論時間的音声思考連鎖技術を採用することで、推論プロセスは音声のタイムスタンプに明確に結び付けられ、モデルはきめ細かな時間認識能力を獲得し、長い音声クリップの中に散在する証拠を正確に特定して集約することが可能になります。
マルチモーダル音声処理単一のモデルアーキテクチャにより、音声認識、音楽分析、環境音理解という3つの主要なタスクを同時にカバーできるため、音声自動認識、音楽分類、音場認識などのタスクごとに専用モデルを切り替える必要がなくなります。
マルチスピーカー追跡音声認識と複数話者による発話ターン検出をサポートし、異なる話者の身元を識別して対話のターンを追跡するため、会議の録音やポッドキャスト分析などの複数話者によるシナリオに適しています。
きめ細かな情報検索このシステムは、まるで「干し草の山から針を探す」ように、長い音声ファイルの中から特定のキーワード、出来事、または音声内容を正確に特定し、特定の時点に関する詳細な質問に答える能力を備えています。
任務固有のバリエーション本システムは、Instruct、Think、Captionerという3つの専用モデルバージョンを提供しており、それぞれ一般的な質問応答、複雑な推論タスク、詳細な音声解説タスクに最適化されており、柔軟なシナリオ適応をサポートしています。

Audio Flamingo Nextの使い方

モデル取得オープンソースの重みデータは、Hugging Faceプラットフォーム（huggingface.co/nvidia）からダウンロードできます。Instruct、Think、Captionerの3種類がありますので、タスクの要件に合わせて適切なバージョンを選択してください。
迅速な展開提供されているColabノートブックまたはGradoアプリケーションテンプレートを使用すれば、ワンクリックでクラウド推論環境を起動でき、コーディング経験のないユーザーでもすぐに使い始めることができます。
ローカルで実行GitHubリポジトリをクローンして依存関係をインストールし、モデルの重みを読み込んだ後、Pythonインターフェース経由で呼び出します。コマンドライン操作とAPIサービス展開に対応しています。
バリアント選択ガイド一般的な音声による質疑応答には「Instruct」バリアントを、時間のかかる推論を必要とする複雑なタスクには「Think」バリアントを、詳細な音声解説を生成するには「Captioner」バリアントを選択してください。
入力形式標準的な音声ファイル形式（WAV、MP3など）に対応しており、推奨サンプリングレートは16kHz、単一ファイルの最大長は30分です。より長い音声ファイルは、チャンク処理によって対応可能です。
ハードウェア要件ローカル環境での展開にはGPUサポートが必要ですが（十分なビデオメモリを備えた環境を推奨）、クラウドベースのColabバージョンでは無料のT4 GPUエクスペリエンスオプションが提供されています。

Audio Flamingo Nextの技術的原理

時間軸に沿った推論メカニズム時間的音声思考連鎖パラダイムを導入したこのアプローチは、中間的な推論ステップを音声タイムスタンプに明示的に結び付けることで、長い音声ファイル内で時間的に分散した証拠を集約するという問題を解決します。また、標準的なRoPEをRoTE（回転時間埋め込み）に置き換えることで、時間認識型の位置符号化を実現します。
4段階のコース学習このシステムは、段階的なトレーニング戦略を採用しています。事前トレーニング（オーディオエンコーダーとアダプタの調整）、中間トレーニング（10～30分長のオーディオクリップへの拡張）、事後トレーニング（GRPO強化学習による対話の安全性と指示遵守の最適化）、およびCoTトレーニング（時間軸に基づいた思考連鎖の微調整）です。

Audio Flamingo Nextの重要な情報と使用要件

開発チームNVIDIAとメリーランド大学が共同開発した
オープンソースの状況モデルの重み、トレーニングコード、およびデータセットは完全にオープンソースです（研究利用ライセンス）。
モデルサイズQwen-2.5-7Bをベースに構築されており、パラメータの総数は約70億個です。
ハードウェア要件GPUサポートが必要で、長いコンテキストでは128Kトークンをサポートします。
音声サポート最大30分、サンプリングレート16kHz
ライセンス契約研究利用ライセンス（非営利目的）

Audio Flamingo Nextの主な利点

長尺音声の分野でトップLongAudioBenchのスコアは73.9で、Gemini 2.5 Proの60.4を上回っています。
完全なモーダル統合単一のモデルで、タスクごとの切り替えを必要とせずに、音声、音楽、環境音を同時に処理できる。
時間的解釈可能性推論プロセスはタイムスタンプと明確に結び付けられており、きめ細かな証拠追跡を可能にする。
ASRのパフォーマンスにおける画期的な進歩LibriSpeechのテストクリーンエラー率は1.54に低下し、LALMカテゴリーで最高の結果を達成した。

オーディオフラミンゴ次期プロジェクトアドレス

プロジェクト公式サイト：https://afnext-umd-nvidia.github.io/
GitHubリポジトリ：https://github.com/NVIDIA/audio-flamingo
ハギングフェイスモデルライブラリ：https://huggingface.co/nvidia/audio-flamingo-next-hf
arXiv技術論文：https://arxiv.org/pdf/2604.10905

Audio Flamingo Nextと競合他社の比較

寸法	Audio Flamingo Next	Qwen2.5-Omni	Gemini 2.5 Pro
開発者	NVIDIA/メリーランド大学	アリババクラウド	Google
オープンソース	完全オープンソース（重み付けデータ、コード、データすべて）	オープンソースのウェイト	クローズドソースAPI
音声再生時間	30分	長めの音声	長尺音声
MMAU平均	75.76（Captioner）	非公開	非公開
MMAU-Pro	58.7（Think）	非公開	57.4
LongAudioBench	73.9	非公開	60.4
LibriSpeech WER	1.54	競技レベル	非公開
特殊能力	時間軸に根ざした考え方	フルモーダルエンドツーエンド	一般的な長文コンテキスト
パラメータサイズ	7B	未知	未知
ライセンス制限	研究目的	ビジネスに優しい	ビジネスAPI

Audio Flamingo Nextのアプリケーションシナリオ

ポッドキャストと長時間の音声分析この機能は、最大30分までのポッドキャスト番組やインタビュー録音のコンテンツ要約と詳細な質疑応答をサポートし、ユーザーが長時間の音声番組の核心的なトピックや重要な議論のポイントを素早く把握できるよう支援します。
会議議事録および複数発言者識別複数人の発言者による会議の内容を自動的に文字起こしし、発言者の順番を追跡することで、構造化された議事録とアクションアイテムの抽出を作成し、企業会議の効率性と情報アーカイブの品質を向上させます。
音楽教育と分析音楽教育の場面では、楽器の種類を識別したり、音楽の形式や構造を分析したり、音楽理論に関する質問に答えたりするのに役立ち、それによって複雑な楽曲の構成要素や演奏技術を理解するのに役立つ。
映画およびテレビのポストプロダクションアシスタントこのソフトウェアは、ビデオコンテンツの詳細な音声説明とメタデータタグを生成し、効果音の取得、BGMの分析、コンテンツの注釈付けをサポートし、映画やテレビ制作における音声素材管理プロセスを加速します。