Qwen3.7-Plus - Alitongyiが発表した大規模マルチモーダルインテリジェントエージェントモデル - AiBoss

Qwen3.7-Plusとは何ですか？

Qwen3.7-Plusは、同義千文が開発した新世代のマルチモーダル大規模モデルであり、視覚と言語を統合したインテリジェントエージェント基盤を提供します。このモデルは、現実世界のシーンを認識し、画面を読み取ってGUIを操作し、視覚的な参照に基づいてコードを生成し、モバイルアプリケーションのエンドツーエンドのナビゲーションをサポートし、ネットワーク知識を組み合わせて視覚的な質問に答え、単一のインテリジェントエージェントループ内でGUIとCLIのインタラクションをシームレスに統合できます。オールラウンドなコーディングインテリジェントエージェントおよび生産性アシスタントとして、このモデルはマルチモーダル入力を使用して、フロントエンドのプロトタイピングから複雑なソフトウェアエンジニアリング、多段階のワークフロー自動化まで、あらゆるタスクを処理し、フレームワーク間の汎用性を備えています。

Qwen3.7-Plusの主な機能

マルチモーダルな対話型ハイブリッドエージェント画像、動画、画面、ウェブページ、テキスト入力の処理を統合し、GUI/CLI/ツール環境内で複雑なタスクループを完了させます。
視覚的インテリジェントエージェント視覚理解、コード解釈、検索機能強化を組み合わせることで、視覚パズル、現実世界の質問への回答、複雑な推論タスクを解決する。
ビジュアルプログラミング画像や動画からSVG、ウェブページ、インタラクティブなフロントエンドを生成し、視覚的な参照からコードへのエンドツーエンドの変換を実現します。
GUIインテリジェントエージェントモバイルおよびデスクトップのインターフェースを理解し、制御位置の決定、タスク計画、および複数ステップの操作を実行する。
現実世界における知覚と推論内容は、現実世界のシナリオ、文書チャート、OCR、ビデオ、運転シナリオの理解などを網羅しています。

Qwen3.7-Plusの技術的原理

視覚認識と推論の融合本モデルは、BabyVision、MathVision、HiPhOといった難易度の高い視覚推論ベンチマークにおいて優れた性能を発揮し、画像の詳細、空間的な関係性、物理的な常識、そして多段階の論理処理能力を包括的に理解していることを示している。特にBabyVisionにおいては、前モデルと比較して大幅な改善が見られ、初期の人間の視覚認知や空間推論により近いタスクにおいて、本モデルがより優れた汎化能力を持つことを示している。
ビジョンからコードへのエンドツーエンドの変革コードインタープリタを統合することで、このモデルは視覚的な問題を計算可能な問題表現に変換し、解決、検索、検証のためのコードを自律的に記述・実行できます。間違い探し、タイル完成、華栄路、迷路、ジグソーパズルなどのタスクにおいて、このモデルは画像の内容を認識し、空間モデリング、経路探索、状態推論、結果検証を実行できます。
GUIの自動化と複数ステップのインタラクションこのモデルは、画面コンテンツを認識し、主要なUI要素を特定し、タスクの意図を理解し、複数ステップの対話型操作を完了することができます。ScreenSpot Pro、OSWorld-Verified、およびAndroidWorldにおいて大幅な改善が実現されており、「インターフェースの理解」から「インターフェースの操作」および「インターフェースの構築」への移行を支援します。
検索機能を強化したマルチモーダル知識質問応答このモデルは、視覚入力と外部知識検索を組み合わせたものです。まず、視覚入力から重要なエンティティ、シーン、テキスト、および文脈上の手がかりを抽出し、次に検索によって外部知識を取得し、最後に視覚的な証拠と検索結果を組み合わせて回答を提供します。
動画の理解と運転シナリオの認識この技術は、短い動画と長い動画の両方において、イベント、アクション、時間的シーケンス、意味的関係を処理する能力を向上させると同時に、LingoQA、SURDS、VLADBenchなどの運転関連テストにおいて、動的なシーン、交通参加者、空間的関係に対する高い理解力を示します。

Qwen 3.7-Plus の使い方

公式プラットフォームをご覧くださいモデルサービスへのアクセスは、Alibaba Cloud BailianまたはQwen Studioの公式サイトから可能です。
モデルバージョンを選択してくださいモデルマーケットプレイスでQwen3.7-Plusを選択し、必要に応じて呼び出しパラメータを設定してください。
マルチモーダルコンテンツを入力する画像、動画、スクリーンショット、ウェブリンクのアップロードに対応しており、テキストコマンドを使ってそれらを操作することが可能です。
タスクを実行するシナリオに基づいて適切な機能モード（ビジュアルエージェント、GUIエージェント、ビジュアルコーディングなど）を選択すると、モデルは知覚、推論、実行の閉ループを自動的に完了します。

Qwen3.7-Plusの主な利点

マルチモーダルエージェントのクローズドループ機能これは、見る、考える、書く、実行する、検証するという行為を統合したインテリジェントエージェントのワークフローに組み込むことで、理解から納品まで、複雑なソフトウェアタスクのエンドツーエンドの自動完了をサポートします。
フレームワーク間の一般化Claude Code、OpenClaw、Qwen Code、その他のフレームワークのいずれを介してデプロイされた場合でも、安定したパフォーマンスを維持します。
ビジュアルプログラミングの分野をリードするQwenVision2Codeでは1772.0のスコアを記録し、GPT-5.4の1884.0に迫る成績を収め、Claude-Opus-4.6（1518.0）やGemini-3.1 Pro（1632.0）を大きく上回った。
強力なGUI操作機能ScreenSpot Pro 79.0とAndroidWorld 81.0は、インターフェースの理解度と操作性において、トップクラスのソフトウェアです。
長期自律運転この事例研究では、エージェントが11時間以上安定して動作し、1万行以上のコードを生成し、1,000回以上の呼び出しをトリガーできることが示されています。

Qwen3.7-Plusプロジェクトのアドレス

プロジェクト公式サイト：https://qwen.ai/blog?id=qwen3.7-plus

Qwen3.7-Plusと類似の競合製品との比較

比較対象寸法	Qwen3.7-Plus	GPT-5.4
位置	マルチモーダル対話型ハイブリッドインテリジェントエージェントベースモデル	一般的なマルチモーダル大規模モデル
ビジョンアリーナランキング	世界第5位／中国第1位	トップ7には入っていない
ScreenSpot Pro （GUIの位置決め）	79.0	67.4
AndroidWorld （モバイル運用）	81.0	未検証
QwenVision2Code （ビジュアルプログラミング）	1772.0	1884.0
BabyVision （視覚的推論）	70.4/64.7	53.1
RealWorldQA （実体験に基づく質疑応答）	86.9	83.8
Terminal Bench 2.0 （端末コード）	70.3	未検証
SWE-bench 多言語	75.8	77.5
ビデオMMMU	88.0	89.5
マルチモーダル検索 MMSearchPlus	41.4	19.7
中核的な利点	GUI操作、視覚的推論、長期エージェントループの閉鎖、フレームワーク間の汎化	ビジュアルプログラミング、ビデオ理解、一般的な言語タスク
適用可能なシナリオ	複雑なソフトウェアエンジニアリング、デスクトップ/モバイルGUI操作、マルチモーダルエージェントワークフローの自動化	一般的なコンテンツ生成、コード変換への視覚的参照、多言語翻訳

Qwen3.7-Plusのアプリケーションシナリオ

インテリジェントなソフトウェア開発要件定義書の作成からコード作成、テストケース作成、GUI自動テスト、バージョンアップまで、エンドツーエンドのアプリケーション開発を行います。
デスクトップアプリケーションのレプリカネイティブアプリケーションのUIレイアウトと機能の詳細を独自に理解し、対応するソースコードを生成し、実際のAPIに接続することで、高精度なアプリケーション複製を実現します。
ビジュアルコンテンツの生成デザイン参照画像を実行可能なSVG、Webページ、またはインタラクティブなフロントエンドコードに変換することで、ビジュアルからコードへの変換コストを削減します。
マルチモーダル知識に関するQ&A画像、動画、ウェブ検索を組み合わせることで、場所の特定、イベントの背景分析、製品情報の検索など、現実世界における視覚的な疑問に答えます。
自動運転と身体化された知能動的な運転シナリオ、交通参加者、および空間的な関係を理解することは、現実世界におけるマルチモーダルなインテリジェントエージェントと具現化されたシナリオを支える。