- 電時流⚡️
- Posts
- UCSDの研究者が、LLMがチューリングテストを突破したことを示す
UCSDの研究者が、LLMがチューリングテストを突破したことを示す
また、OpenAIは非営利活動を導くための委員会を設立

⚡️ 見出し
🤖 AI
Google、CoreWeaveからNvidia製AIサーバーをレンタルへ向けた交渉を進行中 - Googleは、クラウド需要の急増を背景に、AIインフラ強化の一環としてCoreWeaveから高性能Nvidia GPUをレンタルする大型契約を交渉中 [The Information]。
マスク氏のAIチャットボット「Grok」、Xユーザーによる“煽り”ツールに - イーロン・マスク氏のAIチャットボットGrokが、X(旧Twitter)ユーザーの投稿をからかう“煽り”目的で使われ、毒舌キャラとして拡散中 [Business Insider]。
AIボットによるクロールでWikimediaの帯域が50%増加、負荷と倫理問題が浮上 - Wikimediaの各プロジェクトは、AIクローラーのアクセス集中により帯域消費が50%増加。リソース制限とデータ利用の倫理問題が課題に [Ars Technica]。
NotebookLM、AI要約の透明性向上へ「情報源を発見」機能を追加 - GoogleのNotebookLMがアップデートされ、AIが生成した要約に関連する出典リンクを表示する「Discover Sources」機能を導入 [9to5Google]。
アメックス、AI導入でIT対応件数40%削減・旅行サポート85%向上を実現 - アメリカン・エキスプレスはAIを活用し、社内業務の効率化と顧客対応の質向上を実現。IT課題の削減と旅行支援強化が際立つ [VentureBeat]。
Adobe、Premiere Pro向け生成AI「Extend」機能を正式リリース - Adobeは、映像をAIで自然に延長できる生成ツール「Extend」をPremiere Proの全ユーザー向けに展開開始 [The Verge]。
YourBench、汎用ベンチマークに代わる“実データ評価”でAI導入企業を支援 - YourBenchは、企業が自社の実データを使ってAI性能を評価できる新基準を提供。汎用的な指標に代わる実践的な評価へ [VentureBeat]。
Google、Gemini部門のリーダーを交代、Labs責任者が新体制を主導 - GoogleはフラッグシップAI「Gemini」の体制を刷新し、Labsの責任者ジョシュ・ウッドワード氏を新リーダーに任命 [Ars Technica]。
CoTools、エンタープライズAIの統合課題に挑むソリューションを提供 - CoToolsは、さまざまなツール間の連携を容易にすることで、企業向けAIの導入障壁を解消しようとしている [VentureBeat]。
🦾 新興テクノロジー
ビットコインの“大口投資家”が下落中に再び買い集め、8ヶ月ぶりの大規模取得 - 大口保有者によるビットコインの買い集めが再開され、2024年中盤以来初の大規模な積極購入が確認された [CoinDesk]。
🤳 ソーシャルメディア
Amazon、TikTok米国事業の買収を提案か - New York Timesによれば、AmazonがTikTokの米国部門を買収するための提案を行った模様。ソーシャルメディア分野への本格進出を示唆 [Reuters]。
Instagram、「Instagram Free Edits」なる無料の動画編集アプリを開発中との報道 - Metaが、Instagram本体とは別にクリエイター向けの無料動画編集アプリ「Instagram Free Edits」を開発中と報じられている [Social Media Today]。
🔬 リサーチ
OpenAI、AIによる科学論文理解を評価する「PaperBench」を発表 - OpenAIは、言語モデルが科学論文をどれほど理解できるかを測るための新たな評価指標「PaperBench」を公開。学術的タスクへの適応力を検証 [OpenAI]。
DeepMind、高度AIによるサイバー脅威を評価する新フレームワークを提案 - DeepMindは、高度なAIがもたらすサイバーセキュリティリスクを評価・予測するための技術的枠組みを発表 [DeepMind]。
🔌 これに接続して
カリフォルニア大学サンディエゴ校の新しい研究によると、GPT-4.5は特定のペルソナ(性格設定)を採用した場合、厳格なチューリングテスト形式において73%の確率で「人間」と判断され、実際の人間を上回る“人間らしさ”を示しました。参加者はブラインド形式のチャットを通じてAIと人間を区別することができず、LLM(大規模言語モデル)が会話能力における重要な閾値を越えたことを示唆しています。

「内気で温かい性格」として提示されたGPT-4.5は、実際の人間よりも“人間らしい”と評価されました。
テストは並列のチャット形式で行われ、参加者はどちらが人間かを判断しました。
MetaのLLaMa-3.1-405Bは56%の人間認識率を達成し、偶然の範囲を大きく上回りました。
ELIZAやGPT-4oといった従来型システムは23%、21%と大きく後れを取っています。
論文は、これは「知性」や「理解力」ではなく、人間らしく見えるかという印象に関するテストだと強調しています。
👀This paper finds "the first robust evidence that any system passes the original three-party Turing test"
People had a five minute, three-way conversation with another person & an AI. They picked GPT-4.5, prompted to act human, as the real person 73% of time, well above chance.
— Ethan Mollick (@emollick)
8:38 PM • Apr 1, 2025
🗣️ GPT-4.5の方が人間よりも“人間”っぽいと思われた――それほどまでに会話が上手になっているということ。でも実は、うまく話すというより、“人間が好む会話”をしているのかも?この結果は象徴的なマイルストーンだけど、他のAIの進展に比べて妙に地味にも感じられる。
OpenAIは、社会的に喫緊の課題に取り組む非営利活動を推進するための新しい委員会を立ち上げました。この諮問グループは、非営利団体、地域リーダー、公的セクターの専門家(特にカリフォルニア州)と連携し、OpenAIが社会的利益のためにリソースをどう活用すべきかの提言を行います。

委員会は、医療、教育、科学、公共サービスといった分野の課題において、AIがどのように支援できるかを調査します。
委員の発表は4月に予定されており、90日以内に正式な提言をまとめる予定です。
提言はOpenAIの理事会によって審査され、2025年以降の非営利部門の方向性に影響を与える可能性があります。
地域社会の声を重視し、テクノロジー導入を現場のニーズに根ざしたものとすることが目的です。
AI研究機関による社会的傾聴を組織的に取り入れた、非常に珍しい取り組みといえます。
OpenAI seeks to convene group to advise its nonprofit goals
— TechCrunch (@TechCrunch)
7:23 PM • Apr 2, 2025
🧭 OpenAIは最先端AIの安全性という領域を超え、社会的インパクトに基づく展開へと舵を切ろうとしています。ただし、その実効性は、こうした提言が実際の資金配分やツール提供にどれだけ反映されるかにかかっています。
Anthropicは、教育機関向けのAI活用を支援する新プログラム「Claude for Education」を発表しました。この取り組みでは、学生・教育者・研究者向けにカスタマイズされたツールを提供し、正確性・透明性・倫理性を重視した学術利用を推進しています。

Claudeは、米国の教育者に向けて非営利団体 AI for Education を通じて無償提供されています。
教員はClaudeを使って、授業計画や評価基準、読解問題などを生成可能です。
学生には、アイデア出し、個別指導、ライティング支援などにおける責任ある利用方法がガイド付きで提供されます。
回答の根拠を示す透明性ツールも含まれており、批判的思考とAIリテラシーの向上を支援します。
Anthropicは研究者とも連携し、安全かつ効果的な学習環境でのAI活用について研究を進めています。
簡単に言えば: AnthropicはAIを学校に持ち込んでいます――でも補助輪と説明書付きで、慎重に。
Introducing Claude for Education.
We're partnering with universities to bring AI to higher education, alongside a new learning mode for students.
— Anthropic (@AnthropicAI)
4:44 PM • Apr 2, 2025
🎓 Claudeの教育分野への進出は、AI企業が「学びの未来」だけでなく、学生と知能システムの関わり方の規範と倫理を形成しようとしている動きの一環です。
🆕 更新
NotebookLM has always been grounded in your sources. However, sometimes we all need a little more info. Now NBLM can help you discover new sources to expand your research.
Just type in what you want to learn about and we'll scour the web for the best the internet has to offer 🕵️♀️
— NotebookLM (@NotebookLM)
7:16 PM • Apr 2, 2025
Wave 6 is here!
Included in this update:
🚀 App Deploys
📝 Conversation Table of Contents
💬 Commit Message Generation
🟠 Windsurf Tab in Jupyter Notebook
⏩ Additional context for Windsurf Tab
📂 Improved MCP Support
🎨 Two New App Icons…and much more
— Windsurf (@windsurf_ai)
6:17 PM • Apr 2, 2025
We’re releasing PaperBench, a benchmark evaluating the ability of AI agents to replicate state-of-the-art AI research, as part of our Preparedness Framework.
Agents must replicate top ICML 2024 papers, including understanding the paper, writing code, and executing experiments.
— OpenAI (@OpenAI)
5:13 PM • Apr 2, 2025
📽️ 毎日デモ
Freeform LLM outputs are great for chat. But if you're building software? You need structure—something your system can reliably read and use.
In this new short course, Getting Structured LLM Output, built with @dottxtai, taught by @willkurt and @cameron_pfiffer, you’ll learn how
— DeepLearning.AI (@DeepLearningAI)
3:30 PM • Apr 2, 2025
🗣️ 対話
what's happening with ai adoption in india right now is amazing to watch.
we love to see the explosion of creativity--india is outpacing the world.
— Sam Altman (@sama)
3:13 PM • Apr 2, 2025
When I was younger, I thought that the day an AI passed the Turing test would be momentous event in human history. It’s now happened and no one batted an eye.
— Peter Berezin (@PeterBerezinBCA)
2:33 AM • Apr 2, 2025
It’s wrappers all the way down
Platforms exist
Thanks @daniel_r_vega@inversionsemi
— Garry Tan (@garrytan)
1:59 PM • Apr 2, 2025