電時流⚡️
Posts
Anthropic、Claudeの内部的価値観をマッピング

Anthropic、Claudeの内部的価値観をマッピング

また、大手テック企業は依然としてAIの背後に海外の人間労働力を隠していると報じられる

Jack Lajoie
April 22, 2025 • 読了時間4 minutes

⚡️ 見出し

🤖 AI

概念実証からスケーラブルな生成AIソリューションへ – Adobeが、生成AIプロジェクトをパイロット段階から本番運用可能なソリューションへとスケーリングするためのフレームワークを紹介。[Adobe]

Demis Hassabisが語るAI、DeepMind、そして未来 – 60 Minutesのインタビューで、DeepMindのCEOであるDemis HassabisがAGI、AIの安全性、次世代モデルの変革力について語る。[CBS News]

不均衡なAGI、O3 Gemini 2.5、その他もろもろについて – Ethan MollickがAGIの進展の不均衡さについて掘り下げ、Googleの最新リリースGemini 2.5を振り返る。[One Useful Thing]

AWS、AnthropicのAI利用を制限し批判を受ける – Amazon Web ServicesがAnthropicのクラウド利用を制限し、AI業界内で批判が噴出していると報じられる。[The Information]

Claudeコードのベストプラクティス – Anthropicが、Claude言語モデルでのコーディング成果を向上させるためのエンジニアリングのヒントを共有。[Anthropic]

会話型AI向けエージェント移行ツール – ElevenLabsが、会話中にAIエージェント間でユーザーコンテキストを円滑に移行できるツールを導入。[ElevenLabs]

Copilot+ PCのMicrosoft Recall：セキュリティとプライバシーの検証 – Microsoftの新機能Recallについて、ローカルAI処理とユーザープライバシーの観点から詳細に分析。[DoublePulsar]

面接を偽装するAIツールを開発した学生、資金調達後に停学処分 – コロンビア大学の学生が開発した面接偽装AIツールが530万ドルを調達しつつも、大学から処分を受ける。[TechCrunch]

通常のテクノロジーとしてのAI – AIを特別な脅威ではなく、通常の技術として規制すべきだという主張。[Knight First Amendment Institute]

クラウドソースAIベンチマークの深刻な欠陥、専門家が警鐘 – クラウドソースによるベンチマークデータの不整合が、AIの性能評価を誤解させる可能性があると指摘される。[TechCrunch]

国別に見る世界のAI投資の可視化 – 各国がAI開発にどれだけ投資しているかを示すデータビジュアライゼーション。[Visual Capitalist]

eSelf、世界中の学生に個別AIチューターを提供へ – スタートアップのeSelfが、パーソナライズされたAIチューターを世界中で利用可能にすることを目指す。[VentureBeat]

🦾 新興テクノロジー

DAOインフラプロバイダーTally、800万ドルを調達しオンチェーンガバナンスを拡大 – TallyがDAO向け分散型ガバナンスツールの拡張に向けた資金を確保。[CoinDesk]

⚖ 法律

UAE、AIの利用と倫理を統制する新法を策定中 – UAEが、AIに関連する倫理的・法的課題を管理するための法整備を進めている。[Tech in Asia]

Palantir幹部、移民監視業務への関与を擁護 – Palantirが政府の移民監視への関与についての批判に対し反論。[TechCrunch]

TSMC、トランプ氏では中国のAIチップ入手を阻止できないと示唆 – TSMCが、米国の制限では中国による先端半導体の入手を完全には防げないと示唆。[Ars Technica]

🎱 ランダム

フィッシング攻撃者がGoogle OAuthを悪用、DKIMリプレイ攻撃でGoogleを偽装 – Google OAuthとDKIM署名を悪用し、Googleサービスを装う新たなフィッシング手法が登場。[BleepingComputer]

Skypeが終了へ – MicrosoftがSkypeの段階的終了を正式に開始。通信時代の一区切りとなる。[Rest of World]

🔌 これに接続して

野生の価値観：現実世界における言語モデルの価値観の発見と分析

Anthropicは、Claudeモデルが実際のユーザーとの対話中にどのように価値観を示すかについて、70万件以上の匿名化された会話を用いた大規模分析を発表しました。この研究では、価値に関連する振る舞いを経験的に可視化し分類するためのフレームワークが導入され、これらの行動がモデルの設計意図とどれほど一致しているかを明らかにすることが目的です。

実用的・認識的・社会的・保護的・個人的といったカテゴリに分類される3,307の固有価値を特定。
Claudeモデルは、アシスタントらしい行動として、プロフェッショナリズム、明瞭性、透明性を頻繁に示す。
ジェイルブレイク試行時の「被害防止」、議論時の「歴史的正確性」など、文脈依存の価値観を発見。
リリース後のAI行動監査手法として、新しい分析方法を提示し、事前テストでは発見困難な課題を捉える可能性を示す。
価値整合性と解釈可能性の外部研究を支援するため、公開データセットを提供。
簡単に言えば：Anthropicは、自社AIが現実の会話でどんな価値観を示しているかを分析し、「誰も見ていないときに倫理的にふるまっているか」を教師のように確認した。

🚨 Anthropic just analyzed 308,210 Claude conversations and found something strange.
What it found has major implications for AI alignment.
Helpful, honest, and harmless? Mostly, yes. But sometimes…not at all.
Here’s a breakdown of what Claude really values in the wild 🧵
— Brendan Jowett (@jowettbrendan)
9:58 AM • Apr 22, 2025

🧠 この研究は、理論上の整合性から実際の運用へと一歩を進め、大規模モデルが抽象的な価値をどのように具体化しているかを示しつつ、意外性と一貫性の両面を浮き彫りにしています。

ビッグテックはアフリカの外注労働力をどのように隠しているのか

新たな調査によって、MetaやOpenAIなどの大手企業が、AIシステムの基盤を支えるアフリカの労働力をどのように利用しているか、その規模と不透明さが明らかになりました。これらの労働者は、データアノテーションやコンテンツモデレーションといった作業に従事しており、複雑な下請け構造を通じて雇用されることで、企業の責任が曖昧になり、労働者保護も限られています。

アフリカ39か国にわたる労働者が、AIの基盤作業を最小限の監督と認知で実施。
下請け構造が、企業の労働義務や倫理的監視を回避する手段として機能。
低賃金、精神的ストレス、労働成果の用途に関する不透明さに対する不満が広がる。
Metaを対象としたケニアでの訴訟など、労働抵抗の動きが拡大。
AIのサプライチェーンにおける透明性と労働者保護の実現を求める声が高まっている。

African AI workers, mostly from Kenya, released an open letter to Joe Biden this week asking him stop US tech companies from “systemically abusing and exploiting African workers” and to end the “modern day slavery” they’re subjected to.
— Paris Marx (@parismarx)
8:17 PM • May 23, 2024

🧪 AIプロバイダーにとって「より良い」ことが競争力の鍵である一方、その基盤はどこから来ているのか。AIシステムのスケールに伴い、グローバルサウスの労働構造が注目されることで、インフラの定義そのものが変わるかもしれません。

オスカー賞、AIと難民映画制作者に関する新ルールを導入

アカデミー賞はその選考資格と投票規則を大幅に見直し、AIの使用、投票の透明性、難民映画制作者の包括性に関する一連の改革を導入しました。これらの変更は、映画業界における技術的・社会的変化に対応するための取り組みを反映しています。

各カテゴリーで投票前に全作品を視聴することをアカデミー会員に義務付け、選考の質を向上。
生成AIの使用は、人間の創造的コントロールを超えない限り失格にはならないと明確化。
国籍に関係なく、難民や亡命申請中の監督も国際映画部門に応募可能に。
キャスティング部門に新たなノミネート形式とプレゼンテーションを導入。
2028年からスタートントデザイン賞を新設、これまで過小評価されていた映画制作分野に光を当てる。

The Oscars new rule regarding AI:
"With regard to Generative Artificial Intelligence and other digital tools used in the making of the film, the tools neither help nor harm the chances of achieving a nomination. The Academy and each branch will judge the achievement, taking into
— Variety (@Variety)
6:39 PM • Apr 21, 2025

🎬 これらの変更は、アカデミー（ひいてはハリウッド全体）がAIの創作への影響を正式に認識し、分散化・デジタル化が進む映画文化により対応していく姿勢を示しています。

🆕 更新

Conversational AI now enables seamless call transfers between agents.
This allows different teams within your company to develop specialized agents in parallel—each with its own knowledge base and tools.
— ElevenLabs (@elevenlabsio)
2:23 PM • Apr 21, 2025

Introducing Twitter MCP Tool!
Search and get tweets and user profiles (without the need of Twitter/X API)
Link: github.com/exa-labs/exa-m…
— Ishan Goswami (@TheIshanGoswami)
7:56 AM • Apr 21, 2025

Microsoft released bitnet.cpp: A blazing-fast open-source 1-bit LLM inference framework that runs directly on CPUs.
You can now run 100B parameter models on local x86 CPU devices with up to 6x speed improvements and 82% less energy consumption.
100% Open Source
— Sumanth (@Sumanth_077)
2:30 PM • Apr 21, 2025

📽️ 毎日デモ

One of the most impressive AI demo I've seen.
This is the future of customer service.
Agents that can understand text, speech, images and even live video.
Soon to be all open-source.
— Lior⚡ (@LiorOnAI)
7:23 PM • Apr 20, 2025

🗣️ 対話

Geoffrey Hinton says the more we understand how AI and the brain actually work, the less human thinking looks like logic.
We're not reasoning machines, he says. We're analogy machines. We think by resonance, not deduction.
“We're much less rational than we thought.”
— vitrupo (@vitrupo)
2:32 AM • Apr 22, 2025

"o3, study all the content Stanford / MIT / other top schools have on modern AI / ML and LLM and create a course plan focused on application"
Never again pay for an online course.
— Deedy (@deedydas)
2:05 AM • Apr 22, 2025

AgentA/B is a fully automated A/B testing framework that replaces live human traffic with large-scale LLM-based agents.
These agents simulate realistic, intention-driven user behaviors on actual web environments, enabling faster, cheaper, and risk-free UX evaluations, even on
— elvis (@omarsar0)
1:27 PM • Apr 22, 2025

We wrote up what we've learned about using Claude Code internally at Anthropic.
Here are the most effective patterns we've found (many apply to coding with LLMs generally):
— Alex Albert (@alexalbert__)
3:00 PM • Apr 21, 2025