OpenAI、GPT-2以来初のオープンウェイトモデルを間もなく公開予定

⚡️ 見出し

🤖 AI

Google、Gemini Advanced専用の新しいAI動画生成モデル「Veo」を発表 – Googleは、Gemini Advancedプラットフォームを通じて利用可能な高性能AI動画作成ツール「Veo」を導入しました。[The Verge]

Simon WillisonがGPT-4.1の新機能を徹底解説 – GPT-4.1の特徴、改善点、実際の使用テストを詳細に分析。[Simon Willison]

AIチャットボットの「物議を醸す話題への自由度」を評価する新ベンチマークが登場 – 研究者が、センシティブな話題に対するチャットボットの応答性を測る指標を公開。[TechCrunch]

研究者がAIの長年のセキュリティの抜け穴に対する対策を提案 – よく知られたAIモデルの脆弱性を解決する新しいアプローチ。[Ars Technica]

CohereのEmbed 4、巨大文書に対するマルチモーダル検索を可能に – Embed 4により、ユーザーはテキストと画像を使って200ページに及ぶ文書の意味検索が可能に。[VentureBeat]

TSMC、NvidiaおよびGoogleのAI向け次世代チップパッケージングに一歩前進 – 次世代AIハードウェアを支える最先端パッケージング技術を進展。[Nikkei Asia]

Telli、会話型AI音声エージェントで資金調達 – Y Combinator卒業生のTelliがAI音声アシスタントのためにプレシード投資を確保。[TechCrunch]

Microsoftの研究、プロンプトのトークン数増加がAIの推論精度を下げる可能性を示唆 – プロンプトに多くのトークンを追加すると、AIの推論を混乱させる可能性があると判明。[VentureBeat]

Copilot Studio、誰でも使えるカスタムAIワークフローを提供 – Microsoftがノーコードユーザー向けにAI自動化を構築できるプラットフォームを公開。[The Verge]

OpenAI、競合が危険なAIを公開した場合に安全規定を緩和する可能性 – OpenAIが、他社の動向に応じて安全対策の方針変更を示唆。[TechCrunch]

Anthropic、Claude AIに音声モードを開発中 – Claude AIが音声インターフェースを追加予定、マルチモーダル機能を拡充。[The Verge]

Google、AIによる不正検知で3,900万の広告アカウントを停止 – 大規模な広告詐欺対策にAIを活用。[TechCrunch]

🤳 ソーシャルメディア

Patreon、TwitchやYouTubeに対抗してライブ配信機能を導入 – Patreonがクリエイターの収益化を支援するため、ライブ動画機能を開始。[The Verge]

YouTube、「Hype」機能の地域拡大と広告挿入位置を変更 – YouTubeが「Hype」対応地域を拡大、ミッドロール広告の配置も調整。[Social Media Today]

🔬 研究

視覚と言語モデルを用いたクロスモーダルなインコンテキスト学習の研究 – ファインチューニングなしでマルチモーダル推論が可能であることを示す研究。[arXiv]

新手法「Segment and Prompt」でマルチモーダル汎化を向上 – データをセグメント化しプロンプト学習を適用することで、汎化性能を改善。[arXiv]

🎱 その他

Android Auto、セキュリティと安定性向上のため再起動オプションを追加 – Android Autoに再起動機能が追加され、ユーザーの制御性と耐障害性が向上。[9to5Google]

🔌 これに接続して

OpenAI、オープンソース勢の台頭を受けてオープンウェイト戦略を再考

OpenAIは、GPT-2以来初となる新たなオープンウェイト言語モデルをリリースする予定です。急成長を遂げるオープンソースの代替モデルに対する戦略的な対応を意味しており、サム・アルトマンは、長期的な開発者の信頼やイノベーションのエコシステム構築における「開放性」の重要性を過小評価していたことを公に認めました。

新モデルはGPT-4クラスよりも小規模ながら、パフォーマンスとアクセシビリティに最適化されていると見られる
アルトマンは過去の姿勢を「歴史の誤った側にいた」と表現し、経営陣の文化的な転換を示唆
この方向転換は、開発者の間で注目を集めているDeepSeekのR1やMetaのLLaMA 4といったオープンウェイトモデルとの激化する競争に対応
オープンウェイトモデルは、推論コストの削減、ファインチューニングの容易さ、安全な環境での柔軟な導入といった企業価値を明確に提供
この変化により、OpenAIはオープンソース研究者との関係を再構築し、学術や実験的AI分野での影響力を取り戻す可能性

Open model feedback

We’re planning to release our first open language model since GPT‑2 in the coming months. We’re excited to collaborate with developers, researchers, and the broader community to gather inputs and make this model as useful as possible.

openai.com/open-model-feedback

🤔 OpenAIは、創業初期のようにAIを再び開放し始めています。これは、オープンソース勢が急速に進化し、開発者の支持を得ていることに対する現実的な再調整であり、もはやOpenAIが一方的に主導権を握っている時代ではないことを示しています。

Kling AI、映像のリアリズム強化とリアルタイム演出ツールを追加

Klingの最新アップデートでは、AI動画生成プラットフォームにおけるリアリズム、操作性、リアルタイム応答性の大幅な向上が図られています。より幅広いクリエイティブ分野への採用を目指し、今回の改良はRunwayやPika Labsとの競争力を一層高めるものとなっています。

新たに追加された「ハイパーリアル」レンダリングモードにより、長尺クリップでの動きの連続性や顔の一貫性が劇的に向上
動画生成中にシーンの動きやカメラアングルをリアルタイムで変更可能な演出入力機能
テンポラル一貫性の強化により、特にアクションの速いシーンでのフレーム間の揺れが軽減
音声ナレーションや台詞のタイミング機能と連携し、映像生成と音声の同期が容易に
Kling Studio APIにより、外部の制作パイプラインやライブパフォーマンス環境への統合が可能に

— # (#)

🎨 Klingは、“創造から出力までの遅延（creative latency）”の短縮を静かに推し進めています。ツール群は、単なるショート動画のデモを超え、プロフェッショナルかつ動的な活用に対応する設計へと進化中です。

OpenAI、Xに対抗するソーシャルネットワークを開発中

OpenAIは、X（旧Twitter）に対抗する新たなソーシャルメディアプラットフォームを開発中であり、ChatGPTの画像生成ツールをリアルタイムのコンテンツフィードに統合しようとしています。このプロトタイプは現在社内でテスト中であり、OpenAIが垂直統合型のデータおよび配信エコシステムを目指していることを示しています。

タイムライン上で画像を生成・共有できるツールが統合され、AI生成とソーシャル体験が融合
単独アプリとして提供されるか、ChatGPTのインターフェースに組み込まれるかは未定
サム・アルトマンが信頼するクリエイターやコミュニティからのフィードバックを求めるなど、反復的な設計アプローチを採用
XやMetaと同様に、リアルタイムユーザーデータをAIトレーニングに活用する体制の構築を意図
ツールの提供にとどまらず、プラットフォーム領域への本格的な進出により、OpenAIはコンテンツとコンテキストの両方を掌握する可能性

— # (#)

🕸️ これは、おそらくデータと配信チャネルの「領土争奪戦」。言語や画像の生成がコモディティ化する中で、AIネイティブなコンテンツが創られ消費される“場所”を所有することが、次なるフロンティアとされています。

🆕 更新

— # (#)

📽️ 毎日デモ

— # (#)

🗣️ 対話

— # (#)

OpenAI、GPT-2以来初のオープンウェイトモデルを間もなく公開予定

🤖 AI

OpenAI、オープンソース勢の台頭を受けてオープンウェイト戦略を再考

Kling AI、映像のリアリズム強化とリアルタイム演出ツールを追加

OpenAI、Xに対抗するソーシャルネットワークを開発中

Keep reading

電時流⚡️