• 電時流⚡️
  • Posts
  • アリババ、AI動画・画像モデル「Wan 2.1」をオープンソース化

アリババ、AI動画・画像モデル「Wan 2.1」をオープンソース化

また、Simon WillisonによるClaude 3.7 Sonnetの「ハイブリッド推論」に関する見解

⚡️ 見出し

🤖 AI

Apple、今後4年間で米国に5000億ドル超を投資 - Appleは、テキサス州の新工場建設を含む複数の州でのチームおよび施設拡張を計画。高度製造基金を倍増し、AIおよびシリコンエンジニアリングへの投資を加速する。[Apple Newsroom]

Edera、AI保護を強化するクラウドセキュリティ技術を導入 - 女性のみで設立されたEderaは、共有クラウド環境における脆弱性への対応として、クラウドワークロードの分離を改善し、特にGPUを活用するAIワークロードのセキュリティを強化することを目指す。[WIRED]

DeepSeek、中国のAI推進を受け新モデルの早期リリースを決定 - 中国のスタートアップDeepSeekは、R2 AIモデルのリリースを前倒しし、コーディング能力の向上と英語以外の言語での推論能力拡大を目指す。[Reuters]

Anthropic、35億ドルの資金調達を最終調整 - AIスタートアップAnthropicは、企業評価額615億ドルでの大規模な資金調達を完了間近。より高度なAIモデルの開発を進める計画。[The Wall Street Journal]

NvidiaのH20チップの注文急増、DeepSeekのAIモデル採用拡大で - DeepSeekのコスト効率の高いAIモデルの需要増により、中国企業がNvidiaのH20 AIチップの注文を増加。大手テック企業から中小企業まで幅広く採用が進む。[Reuters]

Anthropic、世界初の「ハイブリッド推論」AIモデルを発表 - 新モデルClaude 3.7は、直感的な出力と深い推論を組み合わせ、ユーザーが問題解決のために推論の度合いを調整できる設計となっている。[WIRED]

Meta、2000億ドル規模のAIデータセンタープロジェクトを協議中 - MetaはAI専用のデータセンターキャンパス建設を検討中。候補地にはルイジアナ州、ワイオミング州、テキサス州が挙がっている。[Reuters]

OpenAI、有料ChatGPTユーザー向けに高度な研究機能を拡張 - OpenAIは、ChatGPTの高度な研究機能を全ての有料ユーザーに開放し、複雑な質問への対応能力を向上させた。[Engadget]

AnthropicのClaude AI、Twitchでポケモンをプレイ - AnthropicのClaude AIがTwitchでポケモンをプレイし、対話型学習の可能性を実演。[TechCrunch]

Groks、AIの音声モードを拡張しセンシティブな話題にも対応 - 新しい音声モードにより、ユーザーは性の悩みや陰謀論などデリケートな話題についてAIと対話できるように。AIの役割をめぐる議論が広がる。[Ars Technica]

Y Combinator、スタートアップのデモが話題化後に投稿を削除 - スタートアップのデモがバイラルになった後、Y Combinatorが関連投稿を削除。スタートアップ界でコンテンツ管理と宣伝の在り方が議論に。[TechCrunch]

Activision、『Call of Duty』開発にAIを活用していたことを認める - 人気ゲームシリーズ『Call of Duty』の制作にAIツールを使用していたことを公式に認める。長年のファンの推測が事実であったことが明らかに。[Dexerto]

⚖ 法律

教育系企業、AI検索要約を巡りGoogleを提訴 - Cheggは、AI生成の検索要約によりサイトのトラフィックが激減し、収益や雇用に影響を与えたとして、Googleに対し反トラスト法違反で提訴。[Ars Technica]

英国のAI著作権改正に抗議し、ミュージシャンが無音アルバムをリリース - ケイト・ブッシュやキャット・スティーヴンスを含む1000人以上のミュージシャンが、「Is This What We Want?」という無音アルバムをリリース。AI開発者がアーティストの作品を無償で使用できる著作権改正案に抗議。[Reuters]

🎱 その他

ディズニー社員、AIツールをダウンロードしハッキング被害に - ディズニーの従業員がAIツールをダウンロードしたことでサイバー攻撃が発生。未承認ソフトウェアのリスクが浮き彫りに。[The Wall Street Journal]

Appleの株主、DEI(多様性・公平性・包括性)廃止の提案を否決 - 株主総会でDEI施策の終了を求める提案が否決され、Appleは引き続きこれらの取り組みを継続へ。[Bloomberg]

Philip Moyer、VimeoのAI戦略とYouTubeとの競争について語る - VimeoのCEOが、クリエイター支援のためのAI戦略とYouTubeとの競争についてインタビューで語る。[The Verge]

🔌 これに接続して

アリババは、リアルな動画や画像を生成できるAIモデル「Wan 2.1」をオープンソースとして公開すると発表。この戦略的な動きは、AI分野での普及と競争力の向上を目的としている。

  • モデルのバリエーション: Wan 2.1は、「T2V-1.3B」「T2V-14B」「I2V-14B-720P」「I2V-14B-480P」の4種類を展開。「14B」モデルは140億のパラメータを処理し、より精度の高い出力を可能にする。

  • アクセス可能性: これらのモデルはAlibaba CloudのModelScopeおよびHuggingFaceで公開され、学術、研究、商業用途での利用が可能。

  • パフォーマンス評価: Wan 2.1は、動画生成モデルのランキング「VBench」で高評価を獲得し、特に複数のオブジェクト間のインタラクションに優れている。

  • 投資計画: 同社は今後3年間で少なくとも3800億元(520億ドル)をクラウドコンピューティングおよびAIインフラの強化に投資する予定。

🎥 このリリースにより、アリババはDeepSeekなどの東アジアの革新的企業と並び、オープンソースAIモデルの発展に貢献。初期の結果は非常に期待が持てる。

Anthropicは、新たに「拡張思考モード」を搭載した高度な言語モデル「Claude 3.7 Sonnet」を発表。この機能により、より包括的で文脈を理解したAI生成コンテンツを提供することを目指している。

  • 拡張思考モード: 最大128,000トークンを内部推論に割り当て、より深い分析と高度な回答を生成可能。

  • 出力容量の向上: 128,000トークンまでの出力が可能となり、従来モデルを大きく上回る詳細なコンテンツ生成が実現。

  • パフォーマンス評価: Willisonは、自身のllm-anthropicプラグインを使用し、モデルの性能を検証。詳細なスピーチ生成などの複雑な出力が可能であると評価しつつ、出力が長くなるほど処理時間とコストが増加することを指摘。

  • 他モデルとの比較: Claude 3.7 Sonnetの拡張思考モードは、OpenAIのo1やo3と同等の推論能力を提供し、より高度なAI活用の選択肢を広げる。

🧠 Claude 3.7 Sonnetの「拡張思考モード」の導入は、AI開発のトレンドを反映しており、より正確で文脈を理解した出力の重要性が高まっていることを示している。

Googleは、学生、フリーランス、趣味の開発者向けに、AIを活用したコーディング支援ツール「Gemini Code Assist」の無料版を公開。この動きにより、AI駆動のコーディング支援へのアクセスが拡大し、競争が激化する市場でGoogleの存在感を強める狙いがある。

  • 広範な使用制限: 1か月あたり最大180,000回のコード補完が可能。GitHub Copilotの月2,000回という制限を大幅に上回る。

  • Gemini 2.0搭載: Googleの最新AIモデル「Gemini 2.0」を活用し、多言語対応のコード生成・補完を実現。

  • IDEとの互換性: Visual Studio Code、GitHub、JetBrainsなどの主要開発環境と統合され、スムーズな導入が可能。

  • 高度な機能: 無料版でも強力な機能を提供するが、Google Cloudとの連携や生産性向上ツールは有料の「Standard」「Enterprise」プランのみ利用可能。

  • AIによるコードレビュー: 公開・非公開リポジトリを対象にしたインテリジェントなコードレビュー機能を搭載し、開発者の作業効率を向上。

🧐 GoogleがGemini Code Assistを無料提供する動きは、一見寛大なように見えるが、市場競争の厳しさを反映している可能性も。高度な機能を無料で提供することで、開発者をGoogleのエコシステムに引き込もうとしている。しかし、もし利用率が伸び悩む場合、GitHub Copilotなどの既存ツールとの差別化に課題があることを示唆するかもしれない。

 🆕 更新

📽️ 毎日デモ

🗣️ 対話