

生成AIシステムは、ウェブを閲覧させてコンテンツをスクレイピングすることで学習します。Appleはパブリッシャーがスクレイピングをオプトアウトできるようにしており、新たなレポートによると、大手ウェブサイトの多くがApple Intelligenceの学習を明示的にオプトアウトしているとのことです。
これには、Facebook と Instagram の両方に加え、 The New York TimesやThe Atlanticなどの多くの著名なニュース サイトやメディア サイトが含まれます。
AppleのAIトレーニング
ChatGPT のような大規模な言語モデルは、ニュース記事からユーザーのコメントに至るまで、何百万語ものソース マテリアルにアクセスできるようにすることでトレーニングされます。
Appleの場合、長年にわたりApplebotをSiriのトレーニングやSpotlightの候補表示に活用してきました。最近では、ApplebotをApple Intelligenceのトレーニングにも活用しています。
しかし、Apple はこれを倫理的な方法で行っており、出版社がオプトアウトできるようにし、個人データを除外しています (ただし、あるサードパーティの情報源によって発覚しました)。
私たちは、特定の機能を強化するために選択されたデータや、ウェブクローラーであるAppleBotによって収集された公開データなど、ライセンス供与されたデータを用いて基盤モデルをトレーニングしています。ウェブパブリッシャーは、データ使用制御機能を使用することで、Apple Intelligenceのトレーニングにおけるウェブコンテンツの使用をオプトアウトすることができます[…]
当社では、インターネット上で公開されている社会保障番号やクレジットカード番号などの個人を特定できる情報を削除するフィルターを適用しています。
Apple は Applebot-Extended タグを使用して、サイトが AI トレーニングをオプトアウトしながらも検索インデックス作成を許可できるようにしています。つまり、サイトのコンテンツは Spotlight や Siri による検索に引き続き含まれることになります。
多くの大手ウェブパブリッシャーがオプトアウト
オプトアウトは公開されているrobots.txtファイルを使って行われるため、どのサイトがオプトアウトしたかは簡単に確認できます。Wiredは、大手ニュースサイトやソーシャルメディアサイトをいくつか調査しました。
WIREDは、Facebook、Instagram、Craigslist、Tumblr、The New York Times、The Financial Times、The Atlantic、Vox Media、USA Todayネットワーク、そしてWIREDの親会社であるCondé Nastが、AppleのAIトレーニングから自社データを除外することを選択した多くの組織に含まれていることを確認した。[…]
今週行われた別の分析では、データジャーナリストのベン・ウェルシュ氏が調査したニュースウェブサイトの4分の1強(主に英語で米国を拠点とする出版物1,167社のうち294社)がApplebot-Extendedをブロックしていることがわかった。
Applebot-Extended は比較的新しいタグなので、認知度が高まれば、より多くの Web サイトがオプトアウトするようになる可能性があります。
お金は当然一つの要素である
Appleは複数のメディア企業と契約を結び、研修コンテンツの使用権と引き換えに料金を支払っているとみられています。現在Appleをブロックしているサイトのうち、少なくとも一部が料金提示を待っているのは、おそらくこれが理由でしょう。
「世界最大手の出版社の多くは、明らかに戦略的なアプローチを取っています」と、Originality AIの創設者ジョン・ギルハム氏は語る。「場合によっては、パートナーシップ契約が締結されるまでデータを公開しないといったビジネス戦略が関わっていると思います。」
iOS 18.1 ベータ 3 には、写真のクリーンアップや通知の概要の強化など、いくつかの新しい Apple Intelligence 機能が含まれています。
UnsplashのKelli McClintockによる写真
havebin.com を Google ニュース フィードに追加します。
FTC: 収益を生み出す自動アフィリエイトリンクを使用しています。詳細はこちら。