Google、Gemini 2.5 をリリース

さらに、ChatGPT 4o 内で画像生成が直接利用可能に

⚡️ 見出し

🤖 AI

Apple、AIデータセンター競争に参入 - AppleがAIデータセンター市場に参入し、業界大手との競争を目指す。[Investor's Business Daily]

「バイブコーディング」の定義、あるいはAIが誰でもソフトウェア開発者に変える方法 - 「バイブコーディング」とは、AIが従来のプログラミングスキルを持たない人々にもソフトウェア開発を可能にする概念を指す。[Medium]

Google、新たな「推論」機能を備えたGemini AIモデルを発表 - Googleが、推論能力の向上を目指して設計された最新AIモデル「Gemini 2.5」を発表。[The Verge]

開発者たち、AIクローラーのトラフィック急増により国単位でアクセス遮断を実施 - AIクローラーによる過剰なウェブトラフィックの影響で、開発者たちは一部の国からのアクセスをブロックする事態に。[Ars Technica]

Earth AIのアルゴリズム、他が無視していた場所で重要鉱物を発見 - Earth AIの技術が、これまで見過ごされていた地域で重要鉱物を発見。[TechCrunch]

衣料大手H&M、AI生成のモデルのデジタルツインを導入へ、同意も取得済み - H&Mは、AIで生成されたモデルのデジタルツインを使用し、適切な同意も取得している。[Inc.]

DeepSeekの成功を受け、中国が大量のAIモデルを世界市場に投入 - DeepSeekの成果を受け、中国が次々とAIモデルを世界に向けて展開中。[Bloomberg]

Microsoft、研究・データ分析向けに「深い推論」機能付きCopilot AIを追加 - Microsoftが、研究やデータ分析を強化するために、Copilot AIに深い推論機能を追加。[The Verge]

AIが教室へ:Brisk社、学校向けAIの急成長で1,500万ドルを調達 - EdTechスタートアップBriskが、学校向けAIツールの拡大に向けて1,500万ドルを調達。[TechCrunch]

DeepSeek-V3、Mac Studioで1秒あたり20トークンの処理速度を実現—OpenAIにとって脅威に - DeepSeek-V3がMac Studio上で高速処理を実現し、OpenAIへの競争圧力に。[VentureBeat]

🦾 新興テクノロジー

強化学習による自然なヒューマノイド歩行 - Figureが、強化学習を用いてヒューマノイドロボットに自然な歩行動作を実現させるデモを公開。[Figure.ai]

Fidelity Investments、自社のステーブルコイン「FT」公開へ - Fidelity Investmentsが、デジタルキャッシュとして機能する独自のステーブルコインを開発中。[CoinDesk]

🤳 ソーシャルメディア

YouTube、モバイル購読者リストを追加、ライブ配信者向け機能も拡充 - YouTubeがモバイル購読者リスト機能を導入し、ライブ配信者向けの新機能も追加。[Social Media Today]

🔬 研究

TxGemmaを発表:創薬開発を加速するオープンモデル群 - Googleが、治療法開発を支援するためのオープンモデル「TxGemma」を公開。[Google Developers Blog]

⚖ 法務

Anthropic、音楽出版社とのAI著作権訴訟で初期ラウンドを勝利 - AIによる著作権侵害を巡る訴訟で、Anthropicが初期判決にて勝訴。[Reuters]

🎱 ランダム

Napster、3Dバーチャルコンサート展開のためInfinite Realityに買収される - Infinite RealityがNapsterを買収し、3Dバーチャルコンサート市場へ進出。[Variety]

DJがApple Musicカタログを使ってミックス作成可能に - Apple MusicがDJソフトと統合し、カタログを活用したミックス作成が可能に。[9to5Mac]

GameStop、ビットコインを財務準備資産として追加へ - GameStopがビットコインを財務準備資産として保有する計画を発表。[CNBC]

🔌 これに接続して

Googleは、これまでで最も高度なAIモデル「Gemini 2.5」を発表しました。このモデルは、より深い推論力と複雑な問題解決能力に重点を置いた“思考するモデル”として設計されています。Gemini 2.5 Pro Experimentalとしてリリースされ、従来モデルや他社の競合モデルを主要なAIベンチマークで上回り、現在Google AI StudioおよびGeminiアプリ経由で開発者やユーザーが利用可能です。

  • Gemini 2.5は、マルチステップの論理や推論を要するタスクにおいて精度を高めるため、段階的な処理を重視した「思考モデル」として設計されています。

  • 推論・コーディング・STEM分野のベンチマークで、GPT-4.5やClaude 3.5 Sonnetなどの先行モデルを上回る性能を示し、基盤AIの進化を象徴しています。

  • すでにGemini Advancedユーザーには提供中で、企業向けスケーラブル展開が可能なVertex AIへの統合も進行中です。

  • 100万トークンのコンテキストウィンドウをサポートし、今後200万トークン対応も予定。これにより長文のドキュメント、データセット、対話の整合性を保ったまま処理が可能になります。

  • 実演では、1つのプロンプトから実際に遊べるビデオゲームを構築し、応用的な推論力と生成能力を示しました。

🧠 Gemini 2.5は、単なる生成AIから認知的AIへの転換点を示しています。つまり、単にコンテンツを生成するだけでなく、問題に対して思考・推論する能力を持つモデルです。これは、計画・実行・内省ができるエージェントの実現を目指す業界の動向とも一致しており、今後のツール、ワークフロー、研究におけるより自律的かつ知的なシステムへの道を開いています。

OpenAIは、最新の画像生成機能をGPT-4oに直接統合し、自然にマルチモーダルなシステムを実現しました。このアップデートは、芸術的または抽象的な画像生成にとどまらず、可読なテキストや複雑なアイデアの視覚表現など、実用性に重点を置いています。

  • GPT-4oの画像生成は、その言語・推論能力と深く統合されており、プロンプトの文脈を理解し、それに沿った高精度な視覚表現が可能です。

  • テキストと画像の同時分布に基づいて学習されており、詳細な図解やインフォグラフィック、記号的なビジュアルの生成に優れています。

  • 特筆すべき機能は、画像内のテキスト描画能力。看板、ラベル、ビジュアルストーリーテリングなどにおいて、以前のモデルでは困難だった精度の高いテキスト表現が可能です。

  • ユーザーがアップロードした画像やチャット内の画像をプロンプトとして活用でき、図の修正やアイデアの視覚化、既存ビジュアルの変換などに対応します。

  • 実在人物のリアルな画像生成には制限を設け、創造性と安全性を両立するための対策が導入されています。

🖼️ OpenAIは、図表、標識、教育用ビジュアルなど実践的なコミュニケーションタスクに画像生成を活用することで、GPT-4oを単なる創造ツールではなく、知識労働のための生産性レイヤーとして位置づけています。これは、表現・説明・実行をつなぐAIシステムへのシフトを象徴しています。

Simon Willisonの新しいブログ投稿では、AlibabaのQwenチームが開発した32Bのビジョン&ランゲージモデル「Qwen2.5-VL-32B」を取り上げています。彼は、このモデルが性能と効率のバランスに優れており、自身の64GB Mac上でもローカル実行できたことから、実用性の高さを強調しています。特に、地図の詳細な分析における高精度な理解に驚いたとのこと。

  • Willisonは、Qwen2.5-VL-32Bを「スイートスポット」サイズと評し、GPT-4に迫る推論力を持ちながら、ローカル展開にも適したリソース効率性を評価しています。

  • 数学的推論、視覚的ロジック、ユーザーの意図との整合性において前世代より改善され、Gemma 3-27BやGPT-4o-0513などのモデルを一部のベンチマークで上回ったとQwenチームは主張しています。

  • MLXを用いて4bit量子化版をテストし、地図から生成された画像説明の質や、誰でも使いやすい点を高く評価。

  • 出力例では、保護海域、地形特徴、水深線などを構造的に把握しており、地理的・意味的精度の高さが際立っていました。

  • コミュニティメンバーのPrince Canumaらが、4bitからbf16まで様々な量子化形式を迅速に公開し、大規模マルチモーダルモデルのローカル活用のハードルを下げています。

🧭 Willisonの詳細なレビューは、解釈性と展開可能性を重視するオープンウェイトの視覚言語モデルへの移行を示しています。これは、高度なマルチモーダル理解がクラウド専用ではなく、個人のハードウェアやオープンなエコシステムに広がる未来を予感させます。

 🆕 更新

📽️ 毎日デモ

🗣️ 対話