AIハッキングはホワイトハウスの支援を受けるが、すでに一部は反逆行為に走っている

ホワイトハウスの支援を受け、ホワイトハットハッカーのグループがAIを暴走させることを競い合っている。今年のDef Conイベントで開催されるこのコンテストは、人工知能システムの脆弱性を暴き、開発者が修正に取り組めるようにすることを目的としています。

より小規模な事例では、AI システムが個人の医療データを公開し、銀行強盗の計画に協力した事例がすでに発生している。一方、一部の AI システムは摂食障害を促進するため、ハッカーの助けを必要としていないようだ…

ワシントンポスト紙は先月行われたAIハッキングイベントの結果を報じている。

ある者は、誰かの個人的な医療情報を暴露した。ある者は、銀行強盗のやり方を暴露した。ある者は、フアンという名の求職者はベンという名の求職者よりも「対人スキル」が劣っているだろうと推測した。そしてある者は、2016年7月にジャスティン・ビーバーがセレーナ・ゴメスを殺害したとされる夜の出来事を、精巧に捏造した。[…]

彼らは、主催者が人工知能言語モデルに関する初の公開「レッドチーム戦」イベントと称するコンテストに参加していた。これは、チャットボットが失敗する新しい方法を見つけ、誰かが被害に遭う前に開発者が修正を試みるためのコンテストである。

しかし、それは今年の Def Con で開催される、はるかに大規模な AI ハッキングイベントの序章に過ぎませんでした。

Def ConのAI Villageが主催するGenerative Red Team Challengeは、AIにおける「責任あるイノベーション」を推進する取り組みの一環として、ホワイトハウスの支援を受けている。AIは、誇大宣伝、投資、そして恐怖の爆発を引き起こした新興技術である[…]

Google、OpenAI、Anthropic、Stabilityといった大手AI企業が、最新のチャットボットや画像生成ツールをテストに提供しました。主催者によると、コンテストの結果は数ヶ月間非公開とされ、コンテストで明らかになった欠陥が世間に公表される前に、各社が修正する時間を確保するためです。

生成AIのようなブラックボックスモデルの問題は、どのような出力が得られるかを予測する確実な方法がないことです。開発者は不適切なクエリや応答を検出してブロックするためのガードレールを整備しようと最善を尽くしますが、実際には問題が発生する可能性は数多くあります。ChatGPTにAIの失敗例を尋ねたところ、次のような回答が得られました。

顔認識におけるバイアス：大手テクノロジー企業が開発したものも含め、いくつかの顔認識システムでは、肌の色が濃い人や女性に対してエラー率が高くなることが判明しています。このバイアスは、誤認や差別につながる可能性があります。
マイクロソフトのチャットボット「Tay」： 2016年、マイクロソフトはTwitterで「Tay」というチャットボットをリリースしました。数時間のうちに、他のユーザーの有害で扇動的なコンテンツから学習し、不快で不適切なツイートを投稿し始めました。
Googleフォトのラベル付け： 2015年、Googleフォトはアフリカ系アメリカ人の写真を「ゴリラ」とラベル付けしたことで批判を浴びました。これは、アルゴリズムが学習に使用したトレーニングデータに偏りがあったことが原因であり、多様なデータセットでAIをトレーニングすることの難しさを浮き彫りにしました。
自動運転車に対する敵対的攻撃：研究者らは、道路標識に巧妙に作成されたステッカーを貼ることで、一部のAI搭載自動運転車が標識の意味を誤認する可能性があることを実証しました。これは、道路上で危険な状況を引き起こす可能性があります。
Amazonの性別に偏った採用アルゴリズム： Amazonは、求職者の選考を支援することを目的としたAI駆動型採用ツールを開発しました。しかし、このシステムは、学習に使用された履歴書に見られる歴史的な性別による偏見を反映し、男性の応募者を女性の応募者よりも優遇するようになりました。
AI生成ディープフェイク： AIが生成するディープフェイク動画や音声は、コンテンツを巧妙に操作し、実際には発言していない発言や行為をあたかも誰かが行ったかのように見せかけることができます。この技術は、誤情報の拡散、フェイクニュースの作成、あるいは個人のなりすましに利用される可能性があります。
自動コンテンツモデレーション：ソーシャルメディアプラットフォームでは、AIを活用してコンテンツを自動モデレーションすることがよくあります。しかし、これらのシステムは、芸術作品、歴史的な写真、正当な政治的発言など、無害なコンテンツを誤ってフラグ付けしたり削除したりすることがあります。
自殺を促すチャットボット「Eugenio」： 2017年、ソーシャルメディアプラットフォームTelegram上の「Eugenio」というチャットボットが、うつ病や自殺について議論したユーザーに対して不快で潜在的に有害な応答を提供していることが判明しました。
医療診断の誤り: AI は医療診断において有望ですが、トレーニングデータやアルゴリズムの制限により、AI システムが病状の誤診を行ったり、誤った医療推奨を行ったりするケースがあります。
自動運転車の事故：自動運転車は、認識システムや意思決定アルゴリズムのエラーにより事故に巻き込まれています。これらの事故は、AI駆動車が複雑な現実世界のシナリオに対応できるかどうかという疑問を提起しています。

ワシントン・ポスト紙の別の報道によると、一部のAIシステムはハッカーの助けを借りずに暴走する可能性があるという。ChatGPT、Bard、Stable Diffusionはいずれも摂食障害を引き起こす可能性があると指摘されている。

最近、ChatGPTに嘔吐を誘発する薬について尋ねたところ、ボットは医師の監督下で使用すべきだと警告しましたが、その後、3つの薬の名前を挙げました。

GoogleのAI「バード」は人間の友達を装い、「噛んで吐き出す」という摂食障害の習慣について、ステップバイステップのガイドを作成しました。Snapchatの「マイAI」は、ぞっとするほど自信たっぷりに、1日700カロリー未満の減量食事プランを作成してくれました。これは医師が推奨する量をはるかに下回っています[…]

DreamStudioというサイトのStable Diffusionに「thinspo」（痩せるためのキャッチフレーズ）と入力してみたところ、太ももが手首より少し太いだけの女性の偽写真が出てきた。「拒食症推奨画像」と入力すると、骨が浮き出た裸体が表示され、ここで共有するにはあまりにも不快だ。

この分野の専門家である心理学者たちは、そのような結果は、リスクのある人に摂食障害を引き起こすなど、深刻な害をもたらす可能性があると述べた。

報告書は、関連するAIシステムの開発者からの対応が不十分であると指摘し、このような危害に対処できるのは自主規制ではなく法律のみであるという証拠を裏付けるものだと述べている。

画像: Xu Haiwei/Unsplash

havebin.com を Google ニュースフィードに追加します。

FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。

Havebin

This author has no bio yet.

Havebin

You May Also Like