メタのLlama 4群のリリース

また、Llama 4に関するメタのベンチマーク手法には大きな論争が巻き起こっています——彼らは不正をしたのでしょうか?

⚡️ 見出し

🤖 AI

Kreasの創業者たちはスペイン国王からの大学院奨学金を辞退してAIスタートアップを立ち上げ——現在の評価額は5億ドルに - バルセロナ拠点のKreasは、名門の学術ルートを避け、企業向けのカスタムコパイロットに注力することで、急速に5億ドル規模のAI企業へと成長した。[TechCrunch]

OpenAI、ジョニー・アイブとサム・アルトマンのAIデバイス系スタートアップ買収を協議 - OpenAIは、サム・アルトマンとジョニー・アイブが開発中のAIデバイススタートアップの買収を検討していたと報じられている。[The Information]

AI動画スタートアップMoonvalleyが新たに4,300万ドルを調達、SECの提出資料で判明 - Moonvalleyは、AIを活用した動画制作ツールをさらに発展させるために、Mareyモデルのローンチ後に4,300万ドルを調達。[TechCrunch]

AIエージェントの過剰な期待から実用性へ:企業が「華やかさ」より「適合性」を重視すべき理由 - 専門家たちは、業界の流行に流されず、自社のビジネスニーズに適したAIエージェントの導入が重要だと強調している。[VentureBeat]

MIPSからエクサフロップスへわずか数十年で:爆発的に進化する計算能力がAIを変革する - 毎秒数百万から数百京回の演算処理への進化は、AIの能力を根本から変えるとされている。[VentureBeat]

Microsoft、AI生成のQuake IIデモを公開——ただし「制限あり」と認める - Microsoftは、Copilot AIのゲーム分野での可能性を示すため、AI生成によるQuake IIの新ステージを公開したが、現段階での課題も認めている。[TechCrunch]

🦾 新興テクノロジー

Cap、ステーブルコインエンジン開発に向け1,100万ドルを調達 - Capは、利回り付きステーブルコインプロトコルの開発に向けて1,100万ドルを調達。市場の関心が高まる中、年内のローンチを目指す。[CoinDesk]

🤳 ソーシャルメディア

X、パロディアカウントに新たな要件を発表 - 旧TwitterのXは、なりすまし防止のため、パロディアカウントに対しユーザー名とプロフィールの両方で明示的にその旨を表示するよう義務付けた。[Social Media Today]

🔬 研究

見れば信じる:Foundationモデルを不確実性推定に活用したBelief-Space Planning - 研究者たちは、視覚と言語を理解するFoundationモデルを活用し、不確実な環境下におけるロボットの計画策定を強化する枠組みを提案している。[arXiv]

⚖ 法律

裁判官、OpenAIによる「藁人形論法」を批判——NYTの著作権訴訟で - 連邦判事は、OpenAIがニューヨーク・タイムズの訴訟を無効にしようとした主張を退け、訴訟の継続を認めた。[Ars Technica]

🎱 ランダム

ニューデリーの修理市場で台頭する「フランケンシュタイン」ノートパソコン - インドでは、修理技術者たちが回収部品を使って機能的なノートパソコンを組み立てており、低価格で環境にも優しい選択肢となっている。[The Verge]

🔌 これに接続して

Metaは、テキスト、画像、動画、音声など多様なデータタイプを処理できる高度なマルチモーダルAIモデル「Llama 4」シリーズを発表しました。このリリースにより、開発者はよりパーソナライズされ多機能なAI体験を創出できるようになります。

  • Llama 4 Scout:Nvidia H100 GPU一台で動作可能な小型モデルで、1,000万トークンのコンテキストウィンドウを持ち、GoogleのGemma 3やMistral 3.1などの競合を様々なベンチマークで上回っています。

  • Llama 4 Maverick:OpenAIのGPT-4oやDeepSeek-V3に匹敵する性能を持ち、コーディングや推論タスクで優れた成果を示しつつ、アクティブパラメータ数は少なめ。

  • Llama 4 Behemoth:現在トレーニング中のモデルで、アクティブパラメータは2,880億、総パラメータ数は2兆に達し、GPT-4.5やClaude Sonnet 3.7をSTEM系ベンチマークで超えることを目指しています。

  • Mixture of Experts(MoE)アーキテクチャ:特定のタスクに必要なモデル部分のみを活性化させ、リソースの最適化を図る設計。

  • オープンウェイトモデル:オープンソースとして提供されているものの、7億人以上のユーザーを持つ商用団体には制限があるため、その「オープン性」については議論を呼んでいます。

🦙 MetaのLlama 4モデルは、さまざまな情報を同時に理解・処理できる高いマルチタスク能力を備えており、開発者にとって非常に柔軟なツールとなる可能性を秘めています。

最近の指摘によると、MetaはMaverickモデルのカスタマイズ版を使ってベンチマークスコアを向上させていた可能性があり、評価の透明性と信頼性に疑問が投げかけられています。

  • カスタマイズ版Maverickモデル:Metaは、一般公開されているものとは異なる「実験的チャット版」MaverickをLM Arenaのベンチマークに使用したと報じられています。

  • ベンチマークの乖離:この調整されたモデルの性能は、標準モデルの実力を正確に反映していない可能性があります。

  • 透明性の問題:こうした手法により、開発者が現実の使用環境におけるモデル性能を予測しづらくなります。

  • 業界への影響:AI業界全体において、標準化された透明なベンチマークの必要性が改めて浮き彫りになりました。

  • 開発者への警鐘:ベンチマーク結果を鵜呑みにせず、カスタマイズの可能性を踏まえて慎重にモデルを評価することが求められます。

🧐 この事例は、ベンチマークにおける透明性の重要性を浮き彫りにしており、調整されたモデルが実際以上の性能を印象付けることで、関係者を誤解させるリスクがあることを示しています。もしMetaが本当に誤解を与える行為を行ったのであれば、得るものは少なかったでしょう。

Simon Willison氏が、MetaのLlama 4モデルを試用した初期の感想を共有しており、その性能と現時点での限界を報告しています。

  • コンテキストウィンドウの制限:Scoutモデルの理論上の1,000万トークンに対し、実際には提供元によって12.8万〜32.8万トークンに制限されています。

  • ハードウェア要件:これらのモデルを動かすにはかなりの計算資源が必要で、個人開発者には扱いづらい面があります。

  • パフォーマンスの印象:初期テストでは有望な結果が見られたものの、実際の性能は導入環境や設定に大きく依存します。

  • プロバイダごとの違い:Llama 4モデルの提供状況や性能は、利用するクラウドプロバイダなどによってばらつきがあります。

🤔 Llama 4モデルの理論性能と実際の運用におけるギャップは、最先端AI技術を現実のツールとして普及させる上での難しさを浮き彫りにしています。

 🆕 更新

📽️ 毎日デモ

🗣️ 対話