ここ数ヶ月、急速に崩壊しつつあるサードパーティのトラッキングCookieに代わる技術のGoogleによるオリジントライアルに、何百万人ものChromeユーザーが巻き込まれてきました。Federated Learning of Cohorts(略してFLoC)は、誰もが知っていて嫌悪するトラッカーに代わる、より使いやすくプライバシー保護に優れた代替手段となることを目的とした新しいトラッキング技術で、Googleは2022年までに完全実装する意向のようです。
Googleのプライバシー保護への取り組みには当然ながら、懸念の声が上がっています。それも非常に多く。電子フロンティア財団(EFF)は、FLoCの設計は搾取的な標的攻撃に特化しているように見えると指摘しました。FirefoxやBraveといったブラウザは、自社のブラウザでFLoCをサポートしないと発表し、DuckDuckGoは文字通りFLoCを完全にブロックする拡張機能を開発しました。この試みが順調に進んでいる一方で、研究者や活動家たちは、FLoCのプライバシー保護の約束に反する抜け穴を次々と発見しています。
彼らだけではありません。Digidayは今週、アドテク業界の大手企業数社が、FLoCを本来は無効化するはずのCookieと同じくらい侵入性の高いものにする計画を練り始めていると報じました。場合によっては、企業がGoogleから入手できるあらゆるデータ断片を自社のユーザー情報カタログと統合し、FLoCを「匿名」識別子から、悪質な企業が収集するための単なる個人データへと変貌させることを意味します。また、FLoCをフィンガープリンティング(シークレットモードに切り替えたりキャッシュを消去したりしても、ユーザーの特定を継続できる、特に陰険な追跡技術)の優れたツールとして売り込み始めた企業もあります。
こうした状況の真っ只中、世界で最も人気のあるブラウザである Chrome は、ただ…見て見ぬふりをしている。
「Googleがこの技術を設計した際にこれらの点を考慮していなかったとしても、2019年にこれを公開した途端、まさに擁護者たちがそう言っていたのです」と、EFFでアドテクを専門とするテクノロジスト、ベネット・サイファーズ氏は述べた。「この技術を一目見れば、広告主が利用できるフィンガープリンティングやプロファイリングのための新たなツールに変わるだろうとすぐに分かるでしょう。」
FLoC とは何ですか? また、Cookie とどう違うのですか?
Google の FLoC の売り文句は、一見するとかなりプライバシー重視に聞こえる。FLoC が置き換えることを意図しているサードパーティ Cookie は、Web 全体にとってまさに災厄だ。閲覧中のクリックやスクロールをすべて記録して無数の固有プロファイルを作成し、それらのプロファイルにターゲット広告を複数のサイトにスパム送信する。FLoC はこうした個別トラッキングとターゲティングを排除し、代わりに閲覧行動に基づいて人々を巨大な匿名のコホートに振り分ける。これらのコホートは数千人規模で、毎週消去される。つまり(理想的な世界では)、割り当てられたコホートは群衆の中からあなたを選び出すために使用できず、長期的にあなたをターゲットにすることもできない。少なくとも、それが FLoC の売り文句なのだ。
さらに、常に変化するFLoC IDは、Googleだけが解読できる意味不明な文字と数字の羅列でラベル付けされ、その情報はあなたのブラウザ上でローカルに保持され、あなたが聞いたこともないようなサードパーティ企業の手に渡ることはありません。つまり、FLoCはあなたを、名前、ウェブ履歴、ランチに何を注文したかなど、あなたに関するあらゆる情報が水面下の奥深くに埋もれたまま、漆黒のデータの海に沈む無名の一滴へと変えることを意図しているのです。
Googleは今年初め、これらのFLoCコホートの一部を、同社の今後のオリジントライアルを通じて実際の動作を確認したい広告主に提供し、今年第2四半期に最初のFLoCターゲット広告の配信を開始する予定であると発表しました。同社によると、これまでに33,872もの異なるコホートが存在し、各コホートには文字通り一夜にしてプログラムにオプトインした「少なくとも」2,000人のChromeユーザーのデータが保存されています。
Googleは、何百万人ものユーザーに基本的な事前通知を怠っただけでなく、この世界的な実験で自分が知らず知らずのうちにモルモットになってしまったかどうかを確認する手段も提供していませんでした(ありがたいことに、EFFは確認してくれました)。そして、もしブラウザをこの実験から外したいと思ったら、あまりにも多くのハードルを乗り越えなければならないでしょう。
FLoCのルールって何?ハハハ…ルールだよ…
試験運用の初期段階であるこの段階では、広告主、アドテク企業、そして試験運用に関わるその他の関係者が、このデータをどのように活用できるかに関するルールは文字通り存在しません。つまり、少なくとも合計6万8000人近くのChromeユーザーのコホートデータが、今まさに吸い上げられ、分析され、莫大な利益のために流布されている可能性があるということです。(これらの試験運用についてGoogleにコメントを求めています。)
予想通り、うまくいっています。この実験に参加しているアドテク大手の一社、XaxisはDigidayに対し、FLoC IDを自社のCookie代替技術(同社では「mookies」と呼んでいます)に組み込む方法について「現在分析中」だと述べました。まさにその通りです。Xaxisの技術部門を統括するディレクターの一人、ニシャント・デサイ氏は、FLoCが吐き出す数字列は「(個人の)身元確認における新たな次元」だと明言しました。
デサイ氏はこれを、マーケターが90年代からターゲティングに使用してきたIPアドレスに例えました。IPアドレスと同様に、FLoC IDはユーザー側の入力なしにウェブページから取得できるため、通常はユーザーが手動で情報を提供する必要があるメールアドレスや電話番号よりも簡単に取得できます。IPアドレスと同様に、これらのIDは数字の列であり、他のデータポイントの山とひとまとめにされるまでは個人に関する情報は何も明らかにしません。また、(一部の)IPアドレスと同様に、FLoC IDは完全に静的ではありません。結局のところ、技術的には毎週リセットされますが、特定のコホートが割り当てられると、しばらくの間はそのIDに縛られる可能性があります。
「あなたの行動が変わらなければ、アルゴリズムはあなたを同じコホートに割り当て続けるので、一部のユーザーには永続的なFLoC IDが関連付けられることになるでしょう」とデサイ氏はDigidayに語った。
Googleのソフトウェアエンジニア、ディーパック・ラヴィチャンドラン氏は、ワールド・ワイド・ウェブ・コンソーシアム(略称W3C)との最近の電話会議で、この点についてより率直に述べました。FLoC IDの安定性について尋ねられたラヴィチャンドラン氏は、「平均的なユーザーは1日に3~7個のドメインにアクセスし、時間の経過とともにかなり安定する傾向があります」と答えました。
ラヴィチャンドラン氏は、たとえ1人のユーザーが隔週でコホートを移動したとしても、ウェブ閲覧行動を俯瞰すると、どれもかなり似たようなものに見えると指摘した。つまり、7日後にリセットされても、以前と同じIDが割り当てられる可能性が高く、残りの情報は意味をなさなくなるということだ。
これらの FLoC ID を使用しているのは誰ですか?
Xaxisは、アドテク分野でこうした計画を進めている数多くの企業の一つに過ぎません。サンフランシスコに拠点を置くデータ企業Mightyhiveは、Digidayの取材に対し、ユーザーを特定の「バケット」に分類し、ブラウザに付与されたFLoC IDが特定の商品の購入といった「特定の行動」と関連しているかどうかを確認していると述べました。アドテク仲介業者のMediavineは、現在、自社の技術と連携している約1万1000のサイトを訪問したユーザーからFLoC IDを吸い上げ、そのデータを他のパートナー企業に渡して、どのIDがどの特定のウェブページを訪問したかを解析させていると公言しています。
これらのいわゆる「デマンドサイドパートナー」(業界用語ではDSP)は、どのごちゃ混ぜの識別子が新米ママ、10代のTikTokユーザー、あるいはただ犬が大好きな男性に該当するかを判断する役割を担っています。
現時点では、これらのラベルはかなり広範囲に及ぶだろうと推測する価値がある。同じW3Cの会議で、ラヴィチャンドラン氏は、これらの最初のコホートセットは、ユーザーがアクセスしたドメイン名に関するデータのみを使用して生成され、それ以外のデータは使用されないと説明した。サイト上の異なるページや、特定のページの実際のコンテンツは、FLoCのアルゴリズムでは考慮されていない。ただし、彼は「今年後半」に変更される可能性を示唆した。
DSPにとって、これらの難解なコホートコードを解読するのがどれほど難しいのか疑問に思う方もいるかもしれませんが、答えは「それほど難しくない」です。先月、Mozilla出身で現在は広告会社CafeMediaに勤務するドン・マーティ氏が、自社が提携するウェブサイトを訪問していた主要なFLoCカテゴリーのいくつかを、いかにして大まかに解読したかを説明したブログを公開しました。マーティ氏は、Googleが生成した約3万3000の異なるコホートを33のメガホートに絞り込み、これらのコホートが頻繁に訪れるウェブサイトに関連するキーワードをマッピングしました。
よりありふれたキーワードの一部を除外した後(結果をより「意味のある」ものにするため)、最終的に次のような結果になりました。

大まかに言えば、これらのFLoCがそれぞれどんな人物を表しているのか、お分かりいただけると思います。「健康」「トマト」「リンゴ」「豆」(私のお気に入り)といった言葉が並ぶ32番は、オーガニック食品の摂取や自炊に熱心な人かもしれません。20番(「かぎ針編み」「パターン」「ライティング」)は、心地よいマフラーを作ってくれそうな、落ち着いた雰囲気の人ですね。15番(「コード」「印刷物」「卵」)は…うーん、正直言ってどうなんでしょうか。美味しいシャクシュカが好きなテック系の人でしょうか?
これらのコホートのいずれかを、大手ブローカーが既に保有しているデータと照合しても、その人物について大した情報は得られないでしょう。確かに、この男性は魔法やキャセロール、犬に夢中だと分かるかもしれません。しかし、魔法のキャセロールや犬に夢中な男性と私が過去に経験したことを考えると、おそらく既にその人物について知っていたはずです。
しかし、もしその男性がクィアやトランスジェンダー関連のウェブサイトを定期的に訪問していたらどうでしょうか?オンラインでフードスタンプにアクセスしようとしていたらどうでしょうか?こうしたウェブ閲覧は、他のウェブ閲覧と同様に、FLoCのアルゴリズムに取り込まれ、無数の無名のアドテク事業者に、その人の性的指向や経済状況に関する情報を提供してしまう可能性があります。そして、データ共有の世界は、立法者の善意にもかかわらず、依然として(ほとんど)無法地帯であるため、DSPがデータを最高額入札者に渡すことを阻止することはほとんど不可能です。
Googleはこれが問題であることを認識しており、FLoCの基盤技術が、人種、宗教、病状といった「センシティブなカテゴリー」の事前定義されたリストに基づいて、誤ってコホートを生成してしまうことを防ぐ計画を詳述したホワイトペーパーを公開しました。そのホワイトペーパーが公開されて間もなく、Cyphers氏は自身のブログで、ホワイトペーパーのアプローチが苛立たしいほど中途半端であると主張しました。
「ええ、彼らは努力しました。努力しないよりはましです」とサイファーズ氏は言った。「しかし、彼らの解決策は、彼らが解決しようとしている難題を回避しているだけだと思います。」
彼が言う「難しい問題」は、確かに解決が非常に難しい問題です。つまり、最も脆弱なユーザーを、生命を脅かすものから経済的に壊滅的なものまで、さまざまな方法でプロファイリングされることから守りながら、同時に彼らに関する大量のデータを収集し、他の人が金儲けできるようにするにはどうすればよいのでしょうか。
Googleは、この問題に対処するため、これらの試験に参加している一部のユーザーの閲覧履歴を精査し、異なる「センシティブなカテゴリ」のサイトにアクセスしたかどうかを確認することにしました。例えば、病院のウェブサイトは「医療」と分類されるかもしれませんし、ある人が通う教会のサイトは「宗教」と分類されるかもしれません。特定のグループがこれらの禁止カテゴリ内のサイトを特に頻繁に閲覧している場合、Googleはそのグループをターゲティングからブロックします。
言い換えれば、Googleの提案は、特定の「センシティブ」カテゴリーに属する人々が特定の「センシティブ」ウェブサイトを大量に訪問することを前提としている。しかし、これは人々のウェブ閲覧方法とはかけ離れている。うつ病の人がpsychiatry.orgを毎日利用しているわけではないだろうし、LGBT+を自認する人が、Googleが想定する「ゲイ向けウェブサイト」をうろついているわけではないだろう。確かに、これらのカテゴリーに属する人々は似たような閲覧行動を示すかもしれないが、Googleの提案は、人々がウェブを人間らしくではなく、ロボットのように閲覧する世界への修正のようにも思える。
結局のところ、Googleは2022年半ばまでにFLoCを完全展開する予定だ。それが私たちにとって準備が整っているかどうかは別として。「FLoCの公開GitHubページを見れば、FLoCを設計した人々とプライバシー擁護派の間で、なぜこれがそんなに悪いアイデアなのかを指摘する議論が何ページにもわたって繰り広げられているのが分かります」とサイファーズ氏は言う。「そしてそのたびに、設計者たちは『知っておいてよかった! 私たちもまだ正しいと思っている』と言っているんです」