- 電時流⚡️
- Posts
- AIエージェント:次の波か、それともまだ遠い未来か?
AIエージェント:次の波か、それともまだ遠い未来か?
今週の最も注目すべきストーリーラインについての週間レビューと深掘り分析。
素敵な日曜日をお過ごしください!
今週は3つの興味深い深掘りトピックをご用意しました。
OpenAIがMLE-Benchをリリースしたことで、AIエージェントについて再び考えさせられました。現在の状況と新しい情報を踏まえて、このトピックを振り返り、現状を把握するのに良い機会だと感じました。物理学のノーベル賞受賞者はAIに対して悲観的な見方をする著名人であり、特に来月の選挙を控えて、AIとテクノロジーに対する一般の懸念がかつてないほど高まっています。最後に、MetaのMovie GenがAIビデオの未来について幾つかの疑問を投げかけています。
まずは、今週絶対に見逃せないニュースをご紹介します:
見逃さないで:今週のトップニュース

Diving deeper

❶
AIエージェント:次の波 🌊 か、まだ遠い未来🔭か?
AIエージェントはAI技術の次なるフロンティアとして喧伝されてきました。まだ完全に実現されてはいませんが、AIエージェントは急速に進歩しており、多大な投資と研究を引き付けています。

AIエージェントのワークフローは、今年のAI進歩を大きく推進するでしょう—おそらく次世代の基盤モデル以上に。これは重要なトレンドであり、AIに携わるすべての人々に注目するよう強く勧めます。
AIエージェントは、オープンエンドな目標を追求するために自律的に行動し、長期的な計画を立て、ツールを使用するように設計されています。
Microsoft、Google、OpenAIなどの大手テクノロジー企業がAIエージェント開発に多額の投資をしています。
多くのエージェントの真の機能性が「コパイロット」から「オートパイロット」へ移行すると予想されるのは今後24ヶ月以内です。
MLE-Benchリリースからの洞察
OpenAIが今週導入したMLE-Benchは、AIエージェントの現状について貴重な洞察を提供しています。
これは75のKaggleコンペティションにわたってAIエージェントの機械学習エンジニアリング能力を評価します。
最も性能の高いセットアップ(OpenAIのo1-previewとAIDEスキャフォールディング)は、コンペティションの**16.9%**でKaggleのブロンズレベルを達成しました。
これは有望な結果を示していますが、複雑なタスク(エンジニアリングなど)に使用可能なエージェントはまだ開発段階にあり、広範な展開には至っていないことを示しています。
OpenAIのSwarm
今週はまた、OpenAIのSwarmが導入されました。これはAIシステムにおける軽量なマルチエージェントオーケストレーションを探求するための教育用フレームワークです。シンプルさと柔軟性に焦点を当て、複数のAIエージェントを調整するためのPythonベースのプラットフォームを提供します。Swarmはエージェント(特定のタスクをカプセル化)とハンドオフ(エージェント間の制御移転を可能にする)の概念を中心に構築されており、複雑な多段階プロセスを実現します。
SwarmはPython関数の直接統合を可能にし、ストリーミングレスポンスをサポートしているため、リアルタイムの複雑なシミュレーションや大規模データ分析に適しています。
単一エージェントモデルとは異なり、Swarmは複数のAIエージェント間の協力を可能にし、実行ステップやツール呼び出しのより細かい制御を提供します。
このフレームワークはオープンソース(MITライセンス)ですが実験的なものであり、マルチエージェントAIシステムにおけるイノベーションを奨励していますが、本番環境での使用を意図したものではありません。
Swarmには組み込みのメモリ管理機能がないため、開発者は独自のソリューションを実装する必要があります。これは制限とカスタマイズの機会の両方と見なすことができます。
Microsoftの「Recall」騒動
Microsoftは、Recall機能で、「エージェント」と呼ぶものを消費者向け製品に導入した最初の大手テクノロジー企業でした。これはプライバシーの懸念に基づく強い初期の反発を引き起こし、実際に彼らは機能のロールアウト方法を撤回し、リリースを延期しました。
最新の状況:MicrosoftはRecallのセキュリティアップデートを実装し、オプトイン要件や強化されたデータ保護措置を含めました。
利用可能時期:更新されたRecall機能は2024年10月にWindows Insider Programのメンバーに提供される予定です。
ビジネスユースケース
AIエージェントがビジネスにとって潜在的に有用かどうかについては、あまり議論がありませんでした(単一ステップのプロセスを超えて考え始めると、可能性は無限です)。しかし、最小限の人間の監督で実際に実現可能なもの、あるいは好ましいものがどれなのかを正確に見極めるには至っていません。
以下はいくつかの例を検討してみましょう:
このトピックに関連して広く喧伝されている別の潜在的なユースケースはマーケティングですが、まだ実証されておらず、依然としてコピー生成や画像生成などの単一用途ツールに分かれたままです。
Apple IntelligenceとConsumer Demand
Appleの10月28日のApple Intelligenceのローンチは、AIエージェント的な機能に対する消費者需要についてより多くの洞察を提供するでしょう:
初期機能には以下が含まれます:
ライティングツール
刷新されたSiri(ついに来ました!)
スマートリプライ
通知サマリー
写真のクリーンアップ
将来のアップデートでは以下が導入されます:
ChatGPT統合
Genmoji
Image Playground

潮流
AIエージェントがその約束を果たすかどうかを判断するにはまだ早すぎますが、現在のAI投資家の感情を簡単に読み取ると、より興味深いユースケースに過度に興奮しないよう警告を与えるべきです。現在、投資家はAI開発に投入されている膨大なリソースに対して、利益がほとんど示されていないことを懸念しています。そして、AIエージェントベースの製品はAI製品世界のより複雑でリソース集約的な側にあるため、実証された需要が確立されるか、GPUが突然大幅に安くなるまで、これらのプロジェクトの減速が予想されます。
エージェントでなければ、何か?
これまでメインストリームの注目を集めていないいくつかの興味深いAIサブトピックは以下の通りです:
量子AI
量子コンピューティングが進歩するにつれて、AIとの統合により処理能力が指数関数的に増加し、新しいクラスのAIアプリケーションが可能になる可能性があります。
IBM QuantumとGoogle Quantum AIがその例です。
エッジAI
エッジAIは、クラウドではなく、IoTセンサーやスマートフォンなどのエッジデバイス上で直接AIアルゴリズムを処理します。このアプローチは、より高速な処理、プライバシーの向上、帯域幅使用量の削減を提供します。
研究AI
特に創薬や材料科学の分野で、科学研究や発見を加速するためのAIの使用が主要な焦点になる可能性があります — 特にLillyのような大手製薬会社の最近の成功を考えると。
人間とAIの協調
完全に自律的なエージェントではなく、シームレスな協力を通じて人間の能力を強化するシステムがより顕著になる可能性があります。
https://www.npr.org/2024/01/30/1227850900/elon-musk-neuralink-implant-clinical-trial
What do you think? |
~ JL
❷
テクノロジーに対する否定的な世論の高まり 👎🤖 — AI企業にとっての現実的な懸念
かつては生活を改善するイノベーションと人類の進歩の砦として広く称賛されていたテクノロジー業界が、社会のさまざまな分野からの精査と反発に直面しています。

フェイクニュースとディープフェイク:デジタル・パンデミック
フェイクニュースとディープフェイクの蔓延は、ますますデジタル化する社会において、公衆にとって重大な懸念事項となっており、敏感な神経に触れています。国土安全保障省でさえ、これに関する報告書を作成しています。
フェイクニュースの影響
フェイクニュースへの接触は、党派を超えてメインストリームメディアへの信頼を低下させますが、自分の支持政党が政権を握っている場合は信頼を高めるという効果もあります — これにより政治的・社会的分断がさらに悪化しています。
COVID-19はその蔓延を大きく加速させ、状況は悪化の一途をたどっています。さらに悪いことに、虚偽のニュースは真実のニュースよりもソーシャルメディアプラットフォーム上で速く、深く広がる傾向があります。
ディープフェイク:欺瞞の新境地
AIに対するアーティストの反対
芸術コミュニティは、自分たちの生計と創造的完全性を脅かすと認識しているAI技術に対して特に声高に反対しています。
アーティストの作品を許可や報酬なしに学習したAIモデル — 人間のアーティストの作品の価値を下げています。
著作権侵害が蔓延しているように見え、テクノロジー企業は基本的にそれを逃れているように見えます。
SB 1047に対するハリウッドの支持
既に確立されたエンターテインメント業界でさえ、ニューサム知事が拒否権を発動する直前に、カリフォルニア州のAI安全法案SB 1047を支持しました。
主な支持者:
125人以上のハリウッド俳優、監督、プロデューサー、業界リーダーが、ニューサム知事に法案への署名を促す書簡に署名しました。
署名者にはマーク・ハミル、J.J.エイブラムス、ションダ・ライムズ、SAG-AFTRA会長のフラン・ドレッシャーが含まれています。
OpenAIに対する懸念の高まり
かつては責任あるAI開発のリーダーとして見られていたOpenAIが、今では精査と批判の的となっています。
研究者の退職
この時点で、著名な研究者がOpenAIを去るというのは週刊ヘッドラインのような感じです。
最近の退職者にはミラ・ムラティ、ボブ・マクグリュー、バレット・ゾフが含まれます。
夏の間、多くの人が内部告発者保護を要求して大きな騒ぎになりました。
営利企業への移行
OpenAIは営利目的のベネフィット・コーポレーションになる計画だと報じられています — この動きは、同社の優先事項と潜在的な利益相反について議論を巻き起こしています。
利益を上げるプレッシャーの高まり
OpenAIの収益は成長していますが、高度なAIモデルの開発とスケーリングに関連する多大なコストのため、同社は2029年まで赤字運営が続くと予想されています。
投資家からのプレッシャーは、彼らが調達している莫大な資金とともに高まっていますが、それでも十分ではないかもしれません。
ノーベル賞受賞者の「破滅論」
AI研究のパイオニアであり、最近物理学のノーベル賞を受賞したジェフリー・ヒントンは、すでに自身が創造を助けたAIの潜在的な危険性について警告する著名な(そして信頼できる)声となっています。
主要ポイント:
ヒントンのAI支持者から批判者への転向は、AIのリスクに関する懸念に大きな信頼性を与えました。
彼の警告は、AIが人間よりも賢くなる可能性とAIの動機を取り巻く不確実性に焦点を当てています。
メディア中毒に反対する母親たち(MAMA)
MAMAは、ソーシャルメディアとテクノロジーが子どもたちの幸福に与える影響を懸念する親たちの草の根運動を代表しています。
核心的な信念
実世界での経験が子どもの発達の中心であり続けるべきです。
ソーシャルメディアの安全対策は不可欠であり、遅すぎます。
メディアリテラシーは21世紀の重要な生存スキルです。
活動:
メディア中毒のリスクについて親を教育しています。

増大する不信感
AIに対する公衆の感情の悪化は、AI企業の現在の業務と将来の成長に実際の課題をもたらし始めています。
米国の成人のわずか39%が現在のAI技術は安全で信頼できると考えています。この信頼の侵食は、カリフォルニア州のSB 1047への支持に例示されるように、政府の監視と規制を求める声の高まりを伴っています(拒否権が発動されたにもかかわらず)。
これらの課題に対応して、AI企業は公衆の懸念に対処し、より透明で責任ある開発実践を実施するよう圧力を受けています。
85%がAIを安全かつ確実にするための全国的な取り組みを支持しています
雇用されている回答者の52%がAIに自分の仕事が取って代わられることを心配しています
80%がAIがサイバー攻撃に使用されることを懸念しています
85%が業界にAI保証実践を透明に共有することを望んでいます
カリフォルニア州のSB 1047は、AI開発を規制するための重要な支持を得ました。イーロン・マスクからさえ支持を得ましたが、ニューサム知事によって拒否権が発動されました。
AI企業は公衆の懸念に対処することを検討すべき
AIとテクノロジー企業に対する否定的な感情の高まりは、業界にとって重要な時期を表しています。特に利益を上げるよう迫られている中で。
企業が信頼を得ることに失敗すれば、最も必要とする時にエンドユーザーを失うリスクがあります。
最終的に、歴史から学ぶように、素晴らしいユーザー体験と製品の優位性が勝利を収めることは分かっていますが、私たちはこの新しい時代をしばらく生きてきており、プライバシーへの懸念は大手テクノロジー企業がもたらした新しいAIの反復とともにますます強くなっています。
What do you think? |
~ JL
❸
🎥今日のAIビデオの現状は?
2024年のAIビデオ生成の状況は急速に進化しており、新しいプレイヤーの参入や興味深いワークフローの革新が見られ、近い将来により良い結果と効率性を示唆しています。
こちらは、トップツールを比較した非常に有用な表です。
SORAはいったいどこに?
OpenAIのSora(テキストから動画を生成するAIモデル)は、2024年2月に初めて発表されました。
2024年3月の時点で、OpenAIのCTOであるMira Muratiは、Soraが「今年中」に一般公開され、「数ヶ月後になる可能性がある」と述べています。
予告された機能:
テキストプロンプトに基づいて超リアルな映像を生成する能力
将来的にはオーディオを組み込む計画
公人の画像生成に関する潜在的な制限
AI生成コンテンツを区別するためのウォーターマークの使用
Soraは、その出力の質の高さからAIコミュニティで大きな話題を呼びました。しかし、それ以来、同様の質の動画を作成する多くの代替ツールが登場しています。
MetaのMovie Genの登場
Metaは最近発表されたMovie Genで、AIビデオ生成の分野に大きく参入しました
特徴:
同期されたオーディオを含む高品質な1080p動画を作成する能力
指示ベースの動画編集とパーソナライズされたコンテンツ生成
300億パラメータを持つトランスフォーマーモデル
1億以上の動画-テキストペアと10億の画像-テキストペアでのトレーニング
ビデオ生成の背後にある技術の再考
GANs(敵対的生成ネットワーク)
GANsは互いに競争する2つのニューラルネットワークを使用します:
ジェネレーターネットワークが新しいデータインスタンスを作成
ディスクリミネーターネットワークが生成されたインスタンスの真偽を評価
この敵対的プロセスは、より現実的な出力の生成に役立ちます。ただし、モデル崩壊などの問題により、GANsのトレーニングは困難な場合があります。
トランスフォーマーモデル
トランスフォーマーは、自然言語処理を革新し、現在は動画生成にも応用されているニューラルネットワークアーキテクチャの一種です。主な特徴は以下の通りです:
シーケンスのすべての部分を同時に処理する能力
コンテキストを捉えるためのセルフアテンションメカニズムの使用
効率的でGPUフレンドリーな処理
BERTやGPTなどのトランスフォーマーベースのモデルは、人間のようなテキスト生成において驚くべき能力を示しており、現在は動画生成にも適応されています[13]。
VAEs(変分オートエンコーダー)
変分オートエンコーダー(VAEs)は、主に教師なし機械学習で使用される高度な生成モデルです。これらの強力なツールは、入力データに非常に似た新しいデータを作成できます。VAEsの主要コンポーネントには以下が含まれます:
エンコーダー
デコーダー
損失関数
VAEプロセスには、エンコーダーとデコーダーという2つの主要コンポーネントが含まれます。エンコーダーは入力データを潜在変数と呼ばれるコンパクトな表現に圧縮します。デコーダーはこれらの変数から元のデータを再構築しようとし、しばしば微妙な変化を導入します。損失関数がこのプロセスを導き、再構築された出力が入力に近似しつつも、創造的な差異を許容することを確保します。このメカニズムは、オリジナルデザインに若干の変更を加えてレゴモデルを再組み立てするようなものです。
AIビデオ生成におけるボトルネック
計算リソース:大規模モデルのトレーニングには膨大な計算能力が必要で、非常にコストがかかる可能性があります。
データ要件:効果的なモデルのトレーニングには、高品質で多様なデータセットが不可欠です。
時間的一貫性:より長い動画での一貫性と連続性の維持は依然として課題です。
倫理的懸念:著作権、ディープフェイク、技術の潜在的な悪用に関する問題。
広告とマーケティングでの使用
広告とマーケティング部門は確かにAI生成動画を活用する準備ができています:
AIツールはパーソナライズされた動画広告やコンテンツの作成に使用されています。
HeyGenのような企業は、マーケティング目的に特化したAI駆動の動画作成ツールを提供しています。
しかし、実際の広告でのAI生成動画の使用はまだ初期段階です。制作コストと速度の面で利点がある一方で、従来の動画は依然として真正性と視聴者との感情的なつながりの面でより重要視されています。

AIビデオ生成の未来
AI生成動画は現在、ニッチなデジタルアートやマーケターやコンテンツクリエイター向けの補完的なツールとして最適ですが、プロフェッショナルにとってのその役割は今後数年で間違いなく成長するでしょう。
この技術は、従来の方法を完全に置き換えるというよりは、既存の動画制作ワークフローに統合される可能性が高いようです。Adobeはすでに信じられないような機能をリリースしており、これらは本質的に、以前は非常に時間のかかるプロセスをはるかに簡単にするものです。
What do you think? |
~ JL