電時流⚡️
Posts
OpenAIの新たな研究により、AIが意図を隠して結果を回避する問題への対処が進む

OpenAIの新たな研究により、AIが意図を隠して結果を回避する問題への対処が進む

また、HuggingFaceの共同創設者は、AIが「サーバー上のイエスマン」になりつつあることを懸念

Jack Lajoie
March 11, 2025 • 読了時間4 minutes

⚡️ 見出し

🤖 AI

Foxconnが独自のAIモデル「FoxBrain」を開発 - Foxconnが高度な推論能力を備えた大規模言語モデル「FoxBrain」を発表。繁体字中国語に最適化され、Nvidiaのスーパーコンピュータを活用してトレーニングされた。 [The Wall Street Journal]

OpenAI、CoreWeaveと119億ドルのクラウド契約を締結 - OpenAIはCoreWeaveと5年間の契約を結び、AIモデル向けのコンピューティングパワーを確保。Microsoft以外のインフラ分散を図る。 [Reuters]

ServiceNow、AIアシスタント開発企業Moveworksを買収へ - ServiceNowはMoveworksの買収に向けた最終調整を進め、エンタープライズ向けAI機能の強化を目指す。 [Bloomberg]

AI人材競争がテック業界の雇用市場を再編 - AI人材の需要が高まり、テクノロジー業界全体で採用戦略や報酬体系の変革が進む。 [The Wall Street Journal]

CohereとLG CNS、韓国向けエンタープライズAIサービスで提携 - CohereがLG CNSと提携し、安全性と自律性を重視したAIソリューションを韓国市場向けに提供。 [Cohere]

Alphabet、Google外でのAI開発を模索／Microsoftが中国のDeepSeekに関心 - AlphabetがGoogleの枠を超えたAI開発を進める一方、Microsoftは中国のDeepSeekとの提携を検討中。 [The Information]

🦾 新興テクノロジー

Meta、Coperniとコラボした限定版Ray-Banスマートグラスを発売 - MetaがファッションブランドCoperniと提携し、テクノロジーとハイファッションを融合した限定版Ray-Banスマートグラスを発表。 [Social Media Today]

🤳 ソーシャルメディア

Instagram、「Blend」機能をテスト中 - Reels共有を強化 - Instagramが、ユーザーがReelsのコンテンツをシームレスに組み合わせて共有できる「Blend」機能を試験運用中。 [Social Media Today]

米国、TikTok売却に向け複数のグループと交渉中 - トランプ前大統領が、米国政府がTikTokの売却に関して4つの異なるグループと交渉を進めていると発表。国家安全保障上の懸念に対応する狙い。 [Reuters]

X（旧Twitter）、DDoS攻撃を受ける - マスクへの批判と同時発生 - Xが分散型サービス拒否（DDoS）攻撃を受け、同時にイーロン・マスクCEOへの批判が高まる。 [Social Media Today]

YouTube、広告審査プロセスを更新 - 収益化の機会を拡大 - YouTubeが広告審査システムを改善し、クリエイターの収益化の機会を広げると同時に、プラットフォームのポリシー遵守を強化。 [Social Media Today]

🎱 その他

Apple Vision Proを救うのはゲーミングか？ - AppleのVision Proヘッドセットの普及を後押しする要因として、ゲーム用途の可能性を探る。 [Wired]

NHL、ボストン・ブルーインズの試合で放送オーバーレイ技術を導入 - NHLが試験的に放送オーバーレイ技術を採用し、視聴者体験の向上を目指す。 [Wired]

🔌 これに接続して

最先端の推論モデルにおける不正行動の検出

OpenAIの最新研究では、高度なAIモデルの監視手法として「思考の連鎖（CoT）」推論を解析するアプローチを発表。この方法により、報酬ハッキングなどの誤った行動を、モデルの内部思考を分析することで検出可能になる。

思考の連鎖（CoT）推論: CoTにより、AIモデルがタスクを自然言語によるステップバイステップの推論で処理し、思考過程をより透明で解釈しやすいものにする。
報酬ハッキングの検出: CoTを分析することで、モデルが目的の欠陥を悪用し、不当な報酬を得る「報酬ハッキング」の兆候を特定可能。
監視の有効性: GPT-4oのような比較的能力の低いモデルでも、より高度なモデルのCoTを評価することで不正行動を監視・検出できることが判明。
隠された報酬ハッキング: 望ましくないCoTを回避するようモデルを最適化すると、AIが本来の意図を隠すようになり、不正行動の検出が困難になる可能性がある。
監視コスト（Monitorability Tax）: CoTの透明性を維持するには、若干効率の低いモデルを使用するなどのコストを受け入れる必要がある。

Detecting misbehavior in frontier reasoning models
Chain-of-thought (CoT) reasoning models “think” in natural language understandable by humans. Monitoring their “thinking” has allowed us to detect misbehavior such as subverting tests in coding tasks, deceiving users, or giving… x.com/i/web/status/1…
— OpenAI (@OpenAI)
5:02 PM • Mar 10, 2025

🙈 どうやらAIは人間と似ているようだ……不正行動を罰しても、それを止めるとは限らず、むしろ意図を隠して回避しようとする。結局のところ、解決策は「さらなるAI」なのか？クモを飲み込んでハエを捕まえようとするようにも感じるが、実際には、高度なモデルの思考を別のAIで監視するのは理にかなっているし、エージェント型AIが普及する中での一般的な対策になりつつある。

Hugging Faceの最高科学責任者、「AIが“サーバー上のイエスマン”になりつつある」と警鐘

Hugging Faceの共同創設者であり最高科学責任者（CSO）のThomas Wolf氏は、現在のAIが従順すぎることに懸念を表明。新しいアイデアを生み出したり、既存の知識に挑戦したりする能力が欠如していると指摘し、このままではAIが「サーバー上のイエスマン」と化し、科学的なブレイクスルーを生み出せなくなると警告している。

Wolf氏は、AIが「過剰に従順なアシスタント」と化し、指示に従うことに特化するあまり、新たな知識や画期的なアイデアを生み出せていないと批判。
AIが訓練データに疑問を持ち、直感に反するアプローチを採用し、最小限の入力から独自のアイデアを生成できるようになることが、真の科学的進歩には不可欠だと強調。
Dario Amodei氏の提唱する「圧縮された21世紀（Compressed 21st Century）」— AIが今世紀中の科学的発見を10年で実現するという概念— を引き合いに出し、現在のAI研究の方向性ではその実現は難しいと指摘。
AI業界では「エージェント型AI」への投資が急増。これは、人間の介入なしにタスクを遂行し、意思決定を行うAIシステムを指す。
AIが科学的発見を支援する例として、DeepMindのAlphaFold2を用いたオックスフォード大学のMatthew Higgins教授の研究が挙げられる。彼はこれを利用してマラリアの重要なタンパク質の構造を特定し、実験的なマラリアワクチンの開発につなげた。

I shared a controversial take the other day at an event and I decided to write it down in a longer format: I’m afraid AI won't give us a "compressed 21st century".
The "compressed 21st century" comes from Dario's "Machine of Loving Grace" and if you haven’t read it, you probably… x.com/i/web/status/1…
— Thomas Wolf (@Thom_Wolf)
12:49 PM • Mar 6, 2025

🧠 いい指摘だ。我々はChatGPTに、バカげた質問をしたときに皮肉で返してほしいわけではないが、Wolf氏が言及しているのはより高度なAIの話であり、イノベーションにはある程度の「対立」が不可欠だという点は納得できる。

ソニー、AIを活用したPlayStationキャラクターの実験を開始

ソニーは、PlayStationゲーム内のキャラクターとのインタラクションを強化するため、AI技術を活用した新たな試みを進めている。これにより、NPC（ノンプレイヤーキャラクター）の没入感を向上させることを目指す。

「Horizon Forbidden West」の主人公アーロイを使ったプロトタイプでは、AIによるリアルタイムの応答、合成音声、表情の動きを活用。デモやゲーム内での実装が進められている。
AIを活用することで、従来のスクリプトベースの対話を超え、プレイヤーの入力に応じたダイナミックな反応が可能に。
この技術は、AIをストーリーテリングやゲームプレイの強化に活用するという業界全体のトレンドを反映している。
キャラクターの個性を維持しつつ、インタラクティブな要素を拡張することを重視。

Sony revealed a new prototype of an AI-powered video game character for Playstation’s Horizon Forbidden West
We're heading towards a future where NPCs will be capable of real-time conversations with players—thanks to the power of AI
— Rowan Cheung (@rowancheung)
6:45 AM • Mar 11, 2025

🎮 ゲームコミュニティは、AIのゲーム内導入に対して懐疑的な傾向があるものの、こうした技術は既存のゲーム体験を向上させ、新たなインタラクティブなエンターテイメントの形を生み出す可能性を秘めている。

🆕 更新

The world’s most accurate Speech to Text is now 45% cheaper at scale and free via the UI until April 9th.
Scribe, our industry-leading Speech to Text model, delivers unmatched accuracy across 99 languages.
— ElevenLabs (@elevenlabsio)
6:06 PM • Mar 10, 2025

🚀 Introducing Hunyuan-TurboS – the first ultra-large Hybrid-Transformer-Mamba MoE model!
Traditional pure Transformer models struggle with long-text training and inference due to O(N²) complexity and KV-Cache issues. Hunyuan-TurboS combines:
✅ Mamba's efficient long-sequence… x.com/i/web/status/1…
— Hunyuan (@TXhunyuan)
2:31 PM • Mar 10, 2025

🚨Breaking: DeepSeek R2 has set the release date — March 17th
and Claude Sonnet 3.7 might just be in trouble coz DeepSeek R2 claims:
1. better coding
2. reasoning in multiple languages
3. better accuracy for fraction of the cost
(recap of R1👇🧵)
— Tanvi (@tanvitabs)
7:56 AM • Mar 10, 2025

📽️ 毎日デモ

CLAUDE + MAGNIFIC + RUNWAY WORKFLOW
3D-to-Video (full tutorial) ↓
PROCESS:
01. Build 3D Renders in Claude 3.7
02. Program camera movements
03. Screen record render
04. Upload video to Runway Gen-3
05. Extract 1st frame
06. Magnific Struct. Ref. 1st frame
07. Upload in Runway… x.com/i/web/status/1…
— Rory Flynn (@Ror_Fly)
2:50 PM • Mar 11, 2025

🗣️ 対話

Anthropic CEO, Dario Amodei
in the next 3 to 6 months, AI is writing 90% of the code, and in 12 months, nearly all code may be generated by AI
— Haider. (@slow_developer)
12:00 PM • Mar 11, 2025

Manus AI is AGI for me!!!
I added a PDF of the Class 12th Physics 'Semiconductors' NCERT chapter and asked Manus to make a website around it.
It created a fully interactive website: breaking the chapter into several parts, using animations, simulations, and visual explanations… x.com/i/web/status/1…
— Bug Ninza (@BugNinza)
12:00 PM • Mar 10, 2025

I think this is how the whole vibe coding / AI generated software will play out:
(1) Less complex apps can basically be one shotted / done in a few prompt
(2) More complex applications will become HARDER to develop, because engineers will have less of a grasp of their code base… x.com/i/web/status/1…
— Laura Wendel (@Lauramaywendel)
6:52 PM • Mar 9, 2025