電時流⚡️
Posts
またDeepSeekの瞬間?中国発の汎用AIエージェント「Manus」に注目

またDeepSeekの瞬間?中国発の汎用AIエージェント「Manus」に注目

さらに、Mistralの新しいOCRリリースは、驚異的なベンチマークを達成しているとのこと

Jack Lajoie
March 07, 2025 • 読了時間4 minutes

⚡️ 見出し

🤖 AI

MicrosoftのAI責任者、OpenAIへの依存削減を目指す - Microsoftは、MAIと呼ばれる独自のAI推論モデルを開発中で、Microsoft 365 Copilotなどの製品でOpenAIの技術を置き換える可能性を模索。コスト削減とOpenAIへの依存低減を目的としている。[Reuters]

Google共同創業者ラリー・ペイジ、新たなAIスタートアップを立ち上げか - ラリー・ペイジ氏がAI業界に新たなスタートアップで参入するとの報道があり、テクノロジー分野での活動に再び積極的に関与する動き。[TechCrunch]

DuckDuckGo、プライバシーを維持しながらAI機能を強化 - DuckDuckGoは、AI支援型検索の回答範囲をWikipedia以外にも拡大し、ユーザーにプライバシーを守りつつ有用なAI機能を提供。[DuckDuckGo]

DuckDuckGo、AI検索ツールを強化しユーザー制御を拡充 - DuckDuckGoは、検索エンジンとチャットボットのAI機能を強化し、ユーザーがAI生成回答の頻度を調整したり、完全に無効化できるようにすることで、プライバシーと選択肢を重視。[The Verge]

Salesforce、企業向け自律AI「Agentforce 2dx」を発表 - Salesforceは、新しい自律AIエージェント「Agentforce 2dx」を発表し、企業システム全体での自律的な運用を実現。人間の介入なしに業務を最適化することを目指す。[VentureBeat]

エリック・シュミット氏、AGI開発の「マンハッタン計画」アプローチに警鐘 - 元Google CEOのエリック・シュミット氏は、人工汎用知能（AGI）開発における大規模で攻撃的なプロジェクトが、国際関係を不安定化させ、報復を招く可能性があると警告。[Business Insider]

Y Combinatorのスタートアップ、AI生成コードベースを採用 - Y Combinatorの最新バッチの約25%のスタートアップが、ほぼ完全にAIが生成したコードベースを使用しており、AI主導のソフトウェア開発の進展を示している。[TechCrunch]

OpenAIとPerplexity AI、検索トラフィックが急増 - OpenAIとPerplexity AIは、検索トラフィックの大幅な増加を報告しており、AI技術への関心と利用が急速に拡大していることを示唆。[Forbes]

🦾 新興テクノロジー

トランプ大統領、戦略的ビットコイン準備基金を設立 - ドナルド・トランプ大統領が、犯罪事件で押収された暗号資産を活用し、国家経済安全保障を強化するための「戦略的ビットコイン準備基金」を創設する大統領令に署名。[Cointelegraph]

🤳 ソーシャルメディア

Reddit、「ルールチェック」機能をテスト中 - Redditは、サブレディットごとのルール違反を防ぐための「ルールチェック」機能をテスト中で、投稿削除を減らし、ユーザーエンゲージメントの向上を目指す。[Reuters]

TikTok、米国でのローカルサービス市場に参入計画 - TikTokは、米国におけるローカルサービス市場への進出を計画しており、事業の多角化と市場シェアの拡大を狙う戦略的な動き。[Axios]

ホワイトハウス、SNSインフルエンサーを政府の公式役職に起用 - トランプ政権は、SNSインフルエンサーやポッドキャスターを政府の公式な役職に組み込み、メディアと政治の融合を進める動きを見せている。[The Atlantic]

⚖ 法律

Anthropic、AI政策提言をホワイトハウスに提出 - AIの安全性と研究を重視するAnthropicが、人工知能技術の開発と規制を導くための政策提言をホワイトハウスに提出。[TechCrunch]

🔌 これに接続して

またDeepSeekの瞬間？汎用AIエージェント「Manus」、複雑なタスク処理能力を発揮

中国で開発された新たな汎用AIエージェントManusが、旅行プランの作成や投資アドバイスの提供など、複雑なタスクを実行できる能力を示しました。この進展は、過去のAIブレークスルーであるDeepSeekと比較され、AIの可能性がさらに広がる兆しと見られています。

Manusの機能には、詳細な旅行プランの作成や投資アドバイスの提供が含まれ、その多様性を示しています。
AIエージェントとしての革新性が評価され、投資家からも大きな注目を集めています。
DeepSeekとの比較により、ManusがAI業界に与える影響の大きさが指摘されており、汎用AIエージェントの重要な進展となる可能性があります。

AI is getting out of hand 🤯
Manus, an AI agent from China, is automating approximately 50 tasks, creating a rather dystopian scenario
Reports suggest it is more accurate than DeepSeek, capable of simultaneously handling financial transactions, research, purchasing, etc
— Barsee 🐶 (@heyBarsee)
3:07 PM • Mar 7, 2025

🤖 急速な台頭にもかかわらず、Manusの能力には疑問や懸念が残っており、その開発過程や機能についての公的な情報が少ないことが指摘されています。

Mistral OCR：世界最高レベルの文書理解APIを発表

Mistral AIが「Mistral OCR」という光学文字認識（OCR）APIを発表しました。このAPIは、メディア、テキスト、表、数式などの複雑な要素を正確に処理し、文書理解を強化します。画像やPDFを受け取り、テキストと画像を順序通りに抽出することが可能です。

Mistral OCRは多言語・多モード対応で、世界中のさまざまな言語、フォント、文字体系を解析可能。
ベンチマークテストでは、Mistral OCRが他の主要OCRモデルを上回る精度を示しました。
このAPIはMistralの開発者向けツールで提供され、将来的にはクラウド、推論パートナー、オンプレミス環境にも展開予定。
料金は1,000ページあたり1ドルで、バッチ推論を利用すればさらにコスト効率が向上。

PDF parsing is solved (again).
Mistral's new OCR API
— parses 1000-2000 pages for $1
— achieves state of the art results on tables, multilingual
— supports structure: images, bounding boxes, scans, equations
90% of the world's organizational data is in PDFs.
— Deedy (@deedydas)
7:08 PM • Mar 6, 2025

🤔 初期の評価は高いものの、一部の独立テストでは公式のベンチマーク結果を下回るとの報告もあります。それでも、こうした「派手さのない」AI技術こそが、実用面でのAIの影響を最も大きく示すものになるでしょう。

これらのスマートカメラが山火事を初期段階で検知

人工知能（AI）が山火事検知システムに統合され、従来の手法よりも迅速かつ正確に火災を検出できるようになっています。これらのAI強化カメラは、火災が報告される前の段階で検知できることが多く、対応時間の短縮と被害の軽減に貢献する可能性があります。

AI搭載カメラは1,200件以上の火災を確認しており、人間の911通報よりも約3分の1の確率で早く検出。
夜間視認能力を備え、24時間継続監視が可能で、初期火災の検知精度を向上。
Torch社は赤外線とガスセンサーを利用する屋外センサーを開発し、迅速な火災警報を提供することを目指している。
ビル・ゲイツが支援するスタートアップ「Data Blanket」は、AI駆動のドローンを活用して山火事の境界をリアルタイムでマッピングし、消防隊への情報提供を強化。

A great example of how University research saves lives. AI cameras developed and run out of UC San Diego spot wildfires before they spread.
— Caroline Freund (@CarolineFreund)
5:33 PM • Mar 2, 2025

🌍 AIは単に電力と水を大量に消費するものではなく、こうした技術こそがテクノロジーの楽観主義者を熱くさせるものかもしれません。スマートフォンの新機能ではなく、現実の問題解決にAIが役立つ未来を期待したいですね。

🆕 更新

Introducing our new family of state-of-the-art AI models: Phoenix-3, Raven-0, and Sparrow-0.
Together they bring Conversational Video Interfaces (CVI) to the next level, and power Charlie, our new demo persona 👋
— Tavus (@heytavus)
5:26 PM • Mar 6, 2025

Introducing #Ray2 Flash—3x faster, 3x cheaper new model. Flash brings Ray’s frontier production-ready Text-to-Video, Image-to-Video, audio, and control capabilities with high quality and speed to all subscribers—so you can create more, faster, and without limits. Available now.
— Luma AI (@LumaLabsAI)
5:02 PM • Mar 7, 2025

HunyuanVideo I2V is here! 🚀🚀🚀🚀🚀🚀
I2V training code is here! 🛩️🛩️🛩️🛩️🛩️🛩️
Always Open Source & Open Cccess！
Github: github.com/Tencent/Hunyua…
HuggingFace:
— Hunyuan (@TXhunyuan)
8:04 AM • Mar 6, 2025

📽️ 毎日デモ

🗣️ 対話

Earlier today Mistral released a new OCR api that claims to be state of the art. They didn’t release their benchmarks so we tested it against Gemini ourselves.
Mistral reported its OCR as better than Gemini. Our testing showed the opposite.
Full blog post in the replies!
— Adit 🔮 (@aditabrm)
3:38 AM • Mar 7, 2025

Fantastic 👏
Phoenix-3 from Tavus is the first and only Gaussian-diffusion model for real-time full-face rendering, generating complex microexpressions and emotions to match context.
They power an upgraded Conversational Video Interface (CVI) for human-like dialogue. This… x.com/i/web/status/1…
— Rohan Paul (@rohanpaul_ai)
2:29 PM • Mar 7, 2025

The bulk of this post is good + I applaud the folks who work on the substantive work it discusses.
But I'm pretty annoyed/concerned by the "AGI in many steps rather than one giant leap" section, which rewrites the history of GPT-2 in a concerning way.
— Miles Brundage (@Miles_Brundage)
11:17 PM • Mar 5, 2025

Today we're introducing Template Hub, the first step in offloading global work done by humans to agents.
— Convergence (@convergence_ai_)
2:00 PM • Mar 6, 2025