Nemotron 3 Nano Omni - NVIDIAのマルチモーダル推論モデル - AiBoss

Nemotron 3 Nano Omniとは何ですか？

Nemotron 3 Nano Omniは、NVIDIA Nemotron 3モデルシリーズの一部であり、エージェントシステム向けに特別に設計されたオープンソースの高効率マルチモーダル推論モデルです。このモデルは、30B-A3BハイブリッドMoEアーキテクチャを採用し、視覚、音声、テキストの認識を単一のモデルに統合することで、従来の断片化されたマルチモデルスタックに取って代わります。文書インテリジェンス、ビデオ理解、音声理解のベンチマークテストで優れたパフォーマンスを発揮すると同時に、推論コストとオーケストレーションの複雑さを大幅に削減します。

Nemotron 3 Nano Omniの主な機能

統合されたマルチモーダル知覚テキスト、画像、動画、音声の入力をネイティブにサポートし、単一の共有された知覚・行動ループ内でクロスモーダル推論を実行します。
ドキュメントインテリジェンスMMlongbench-DocやOCRbenchV2などの文書理解ベンチマークにおいて、最適な精度を実現します。
動画と音声の理解ネイティブなビデオの時間的理解（3D畳み込みや効率的なビデオサンプリングを含む）と音声認識（Parakeetエンコーダーに基づく）をサポートします。
エージェントサブエージェント大規模エージェントシステムにおけるマルチモーダルな認識およびコンテキスト維持サブエージェントとして、Nemotron 3 Super/Ultraなどの計画および実行モデルと連携して動作します。

ネモトロン3ナノオムニの技術原理

ハイブリッドMoEコアアーキテクチャMambaレイヤー（シーケンスとメモリ効率）とTransformerレイヤー（高精度な推論）を組み合わせることで、タスクに必要なエキスパートを活性化し、メモリと計算効率を最大4倍向上させます。
時空間視覚処理: 3D畳み込みを使用してフレーム間の動きを捉え、推論中に効率的なビデオサンプリング（EVS）レイヤーと組み合わせることで、高密度の視覚トークンを簡潔なセットに圧縮し、コンテキストウィンドウの過負荷を回避します。
マルチモーダル建築このシステムは、強力なテキストモデルを中央デコーダーとして使用し、視覚側ではC-RADIOv4-Hエンコーダーを用いて高解像度画像を処理し、音声側ではNVIDIA Parakeetエンコーダーをベースとしており、クロスモーダルブリッジングを通じて統一的な推論を実現している。
トレーニング方法教師ありファインチューニング（SFT）は、モダリティのカバレッジとコンテキストの長さを段階的に拡張し（16K→49K→262K）、SFT後の強化学習において25の環境構成にわたって230万を超える環境展開を実行します。

Nemotron 3 Nano Omni の使い方

モデルの重みを取得するHugging Faceから完全なパラメータチェックポイントをダウンロードするか、NVIDIA NIMマイクロサービス経由で呼び出してください。
推論エンジンを選択vLLM、SGLang、TensorRT-LLM、またはDynamoと連携して展開可能で、FP8/NVFP4量子化をサポートします。
ローカルで実行Ollama、llama.cpp、LM Studio、Unslothなどのツールを使用して、GGUF形式のモデルを実行します。
クラウド導入AWS、Oracle Cloud、Microsoft Foundry（近日対応予定）などのクラウドプラットフォーム、またはBitdeerやTogether AIなどの推論サービスプロバイダーにデプロイできます。
微調整カスタマイズドメイン適応には、NVIDIA NeMoが提供するLoRA SFTやGRPO/MPOなどのレシピを使用してください。

Nemotron 3 Nano Omniの主要情報と使用要件

モデルサイズ合計パラメータ数30B、活性化パラメータ数3B（30B-A3B混合MoE）。
オープンソースライセンスNVIDIA Nemotronオープンモデルライセンス：重み、データセット、トレーニングレシピはすべて公開されています。
ハードウェアサポートNVIDIA Ampere、Hopper、およびBlackwell GPUファミリーに対するサポートを最適化しました。
使用しきい値ローカル展開にはGPUメモリ要件を満たす必要があります。クラウド/API展開は直接アクセスできます。
データスケール事前学習済みデータセットには、約1270億個のマルチモーダルトークンと、それに続く約1億2400万個の厳選されたサンプルが含まれており、25種類の強化学習環境を網羅しています。

Nemotron 3 Nano Omniの主な利点

究極の効率性固定されたインタラクション閾値を用いることで、このビデオ推論システムは、同様のオープンソースのOmniモデルと比較して、スループットが約9.2倍、複数文書推論スループットが約7.4倍向上し、推論コストは大幅に低減されます。
フルスタックオープン重み、データセット、トレーニングレシピ、デプロイメントレシピ、ファインチューニングレシピ、合成データ生成パイプラインにおいて、業界最高水準の透明性を提供します。
ネイティブマルチモーダルこれにより、独立した視覚・音声・言語モデルを構築する必要がなくなり、結果として、異なる感覚モダリティ間のコンテキストの一貫性が向上し、オーケストレーションの複雑さが軽減される。
ハードウェアを考慮した最適化FP8/NVFP4量子化とNVIDIA最適化カーネルをサポートし、ワークステーションからデータセンターまで低遅延での展開を可能にします。
プライバシー第一NVIDIA NemoClaw を介してローカルサンドボックス内で実行されるため、機密データはローカルインフラストラクチャから外部に持ち出されません。

Nemotron 3 Nano Omniのプロジェクトアドレス

プロジェクト公式サイト：https://developer.nvidia.com/blog/nvidia-nemotron-3-nano-omni-powers-multimodal-agent-reasoning-in-a-single-efficient-open-model/
ハギングフェイスモデルライブラリ：https://huggingface.co/nvidia/Nemotron-3-Nano-Omni-30B-A3B-Reasoning-BF16

Nemotron 3 Nano Omniと類似製品との比較

比較対象寸法	Nemotron 3 Nano Omni	GPT-4o	Qwen2.5-Omni
建築	30B-A3B ハイブリッドMoE（マンバ＋トランスフォーマー）	高密度アーキテクチャ（パラメータは非公開）	高密度建築
オープンソースレベル	完全オープンソース（重み、データ、レシピ、数式）。	クローズドソースAPI	オープンソースのウェイト
モーダルサポート	テキスト、画像、動画、音声	テキスト、画像、音声、動画	テキスト、画像、音声、動画
位置	エージェント・サブエージェント（知覚＋コンテキスト）	一般的なマルチモーダル大規模モデル	エンドツーエンドのマルチモーダルモデル
推論効率	高スループット、低推論コスト（MoEアクティベーション）	高性能だが、コストも高い。	中くらい
ハードウェア最適化	NVIDIA GPUの量子化とカーネルを徹底的に最適化	クラウドAPIにはローカル最適化機能がありません	汎用GPUサポート
コンテキストの長さ	最大262,000ドル	128K	128K

Nemotron 3 Nano Omniの応用事例

インテリジェントな財務文書このモデルは、財務諸表、契約書、請求書などの複数ページのスキャン文書を自動的に解析し、ページをまたいでグラフやテキストをリンクさせ、監査に関する質疑応答やコンプライアンスレビューを完了させることができます。
医療におけるマルチモーダル診断このシステムは、医療画像、医療記録のテキスト、医師の音声録音を組み合わせることで、構造化された診断概要とフォローアップに関する推奨事項を作成するのに役立ちます。
動画コンテンツの理解と操作長時間の動画に対してネイティブな時間的理解を実行し、タイムスタンプ付きの要約、タグ、トランスクリプト、キーフレーム参照を自動的に生成して、メディア資産管理をサポートします。
広告およびマーケティング監査動画広告素材を一括処理し、画面コンテンツ、BGM、音声テキストを同時に認識することで、ブランドの安全性とコンプライアンスの自動審査を実現する。
エンタープライズコンピュータはエージェントを使用する知覚サブエージェントとして、スクリーンショット、UIインターフェース、システムオーディオをリアルタイムで解析し、RPAまたはOpenClawクラスのエージェントを駆動して、ソフトウェアを横断する自動化された操作を完了させます。