Open Data Institute(ODI、英国のデータ政策研究・推進機関)とオックスフォード大学が2026年4月に公表したレポート “Missing Infrastructure: Semantic Data for Effective Scrutiny of Online Platforms” は、オンラインプラットフォームの研究者データアクセスをめぐる技術的・制度的空白を論じた政策提言文書である。著者はJake Stein、Sophia Worth、Elena Simperl。EUのデジタルサービス法(DSA)が研究者の法的アクセス権を明文化した現在もなお、そのアクセス権を実際に行使するための技術基盤が存在しないという逆説を中心に据え、セマンティックウェブ技術——ナレッジグラフ・オントロジー・制御語彙——による解決策を提案する。
APIの終焉と研究空白の発生
2023年初頭、TwitterとRedditが相次いで研究用APIの無償提供を終了した。同年、Twitterは月額4万2,000ドルの有料プランに移行し、Redditは第三者APIに高額の利用料を課したことでApolloなどのアプリが消滅した。2024年にはMetaがCrowdTangleのサービスを停止した。CrowdTangleはFacebookが2016年に買収した第三者製データ集計ツールであり、投稿単位の検索と集計を可能にしていた。Metaがその代替として位置づけるMeta Content Library(MCL)とMeta Ad Library(MAL)への移行は、2024年米大統領選の直前に実施された。
これらの変化は、偽情報・選挙干渉・子どもの安全といったプラットフォームのシステミックリスクを研究する学術コミュニティに実質的な断絶をもたらした。研究APIはもともと、プラットフォームがサードパーティアプリ経由でエコシステムを拡張する戦略の副産物として無償提供されてきた。2010年代のプラットフォームにとって、研究者への開放は費用対効果の高いマーケティングでもあった。その均衡が崩れたのは、ウェブデータの経済的価値が急騰し、GenAI向け学習データとしての需要が爆発したことによる。皮肉なことに、MetaやX、Apple、Googleはロボット除外プロトコル(robots.txt)を無視してウェブスクレイピングを行いながら、研究者には同等のアクセスを拒んでいる——レポートはその非対称性を明示的に指摘する。
何が失われたか——API時代にしか可能だった研究
API時代の喪失を最も鮮明に示すのは、Vosoughi、Roy、AralがTwitterの資金提供とAPIアクセスを得て実施した研究(Science, 2018)である。虚偽ニュースの拡散が真実のニュースを速度・深度・幅のいずれにおいても上回ることを実証したこの研究は、今日では再現不可能だとレポートは断言する。同様に、Krafft & Donovanによるデジタル偽情報キャンペーン研究は、Redditデータを長期アーカイブしていたPushShiftを使用したが、PushShiftはRedditの利用規約変更を受けてすでに閉鎖されている。この研究が明らかにしたのは、極右の偽情報キャンペーンがスレッドをまたいで「証拠コラージュ」を組み立て、コンテンツモデレーションを回避する手法であった。
フィルターバブルの検出や選挙介入の横断分析に必要なのは、個々の公開投稿ではなく、アルゴリズム推薦システムの挙動全体を視野に収めるバックエンドレベルのアクセスである。個人化されたフィードを横断的に分析するためには、プラットフォームが保持するか、法的に争われたスクレイピング手段でしか入手できないデータが不可欠だ、とレポートは論じる。API時代にはそれが可能だった。
プラットフォームの「代替」とその限界
MetaはMCLとMALが「公共の利益および科学的研究のために適格な個人がニアリアルタイムの公開データにアクセスする手段を提供している」と主張する。しかし研究者・市民社会は一致してこの評価を退ける。Ada Lovelace Instituteは「研究者や市民社会団体は新しいツールがCrowdTangleと同等か改良された機能を提供しているとは見なしていない」と指摘し、プラットフォームが一方的かつ予告なくアクセスツールを削除するリスクを改めて示したと評価する。NYU社会メディア・AI・政治センター(CSMaP)は「研究はプラットフォームの判断に従属しており、しばしばデータの一部しか共有されず、最小限の通知でアクセスツールが剥奪される」と述べる。
TikTokは研究APIをケースバイケースで提供しているが、Smart Data Research UKは「特定のプロジェクトや実績ある研究者を優遇する」裁量的運用だと批判する。Atlantic Councilはさらに、TikTokの研究APIが「実際のユーザーフィードに表示されるソーシャルメディア投稿と比較して、エンゲージメント統計に顕著な乖離を示している」と報告する。TwitterとRedditは引き続きAPIを有償で提供しているが、研究者向けの低価格オプションはなく、スクレイピングや外部リポジトリを禁じた利用規約を積極的に執行している。
クリーンルームや集計データセット、プラットフォームの裁量に依存するAPIは、DSAが研究者に求めるシステミックリスクの独立評価には本質的に不適合である。「許可による独立性は独立ではない」——これはMeta社の2020年選挙キャンペーンを監視した独立報告者が残した言葉であり、レポートはこれを引用して現状を要約する。
DSAが作った権利、作らなかった道具
EUのデジタルサービス法(DSA、2022年)は、超大規模オンラインプラットフォーム(VLOP)および超大規模オンライン検索エンジン(VLOSE)に対して、研究者へのデータアクセスを義務づける初めての法的枠組みを構築した。第40条およびその委任規則は、研究者が市民の基本的権利に対するシステミックリスクを調査するための公開データアクセス(第40条第12項)と非公開データアクセス(第40条第4項)の双方を規定する。各EU加盟国のデジタルサービス調整官(DSC)が研究者を審査し、プラットフォームとの間の紛争を仲裁する中立的介在者として機能する。英国Ofcomとスイス連邦環境・運輸・エネルギー・通信省(DETEC)も同様の枠組みの策定を進めている。
しかし規制の歴史は、アクセス権の法制化だけでは実効性が生まれないことを繰り返し示してきた。GDPR第15条のデータ主体アクセス請求(DSAR)は研究者が集計データを取得するために流用されてきたが、技術的実装の曖昧さが一貫しないデータ開示・品質・形式・提供方法を招き、再現性ある研究を著しく困難にした。個人アクセス権を集計研究データの収集に転用するには、参加者を大量動員し、データを抽出し、標準化する膨大な組織的・技術的負荷がかかる。レポートが引用するBinns & Stein et al.(2025)のUberアルゴリズム研究はその代表例であり、「得られた成果に対して不均衡な努力を要した」と評価されている。
プラットフォームは巨大なデータインフラを企業として分散投資できる一方、研究者は短期的な研究資金サイクルの中で、自機関の境界内で限られたリソースを運用するほかない。EUのデジタル・オムニバスAI提案が、AIアクティビティの実装を「調和された標準、共通仕様、委員会ガイドライン」の整備まで一時停止するとした判断は、技術的インフラの欠如が法的権利の空洞化を招くことへの制度的認識を示している。
セマンティックデータという提案
レポートの核心は、「規制プロセスから規制インフラへの根本的な転換」という命題である。法が定めた手続きを実際に機能させるためには、共通の技術標準・共有ツール・制御語彙が必要だという主張だ。その具体的な提案がナレッジグラフ(KG)の構築である。
KGはエンティティ(ノード)と関係(エッジ)のネットワークとしてデータを組織化し、語彙とオントロジーによってデータの記録・整理を標準化する。語彙はエンティティとその関係を記述する固定された用語集を定義し、オントロジーはこれらのエンティティと関係をクラス・サブクラス・プロパティ・ドメイン・レンジ・制約・ルールを用いて組織化する。複雑で内部参照を多用する法的テキストの構造化に、KGはとりわけ有効である。医学分野では関連疾患の記録・薬物相互作用の防止・新用途の発見にKGが活用されており、WikidataはKGを用いた分散型コミュニティ管理によって言語横断的な知識の相互運用性を実現している。
提案するDSA KGの目的は、法的義務・手続きステップ・アクター・条件・決定点をマシンリーダブルな形式で表現することにある。これにより、法的訓練を持たない技術系研究者がDSAの手続きを把握しやすくなり、逆に技術的設計に不慣れな法律専門家が実装要件を理解するための参照基盤となる。
ナレッジグラフの設計と構成要素
レポートが提示するKGエコシステムは7つの要素から成る。
① DSA KG:DSA第40条およびその委任規則から法的義務・手続き・アクター・条件を抽出し、研究者・規制当局・プラットフォーム・アクセス請求・データカタログ・管轄・適格条件・応答義務などのエンティティとその依存・条件・定義(関係)をグラフとして表現する。法的条項と運用要件の間のトレーサビリティを確保する。
② DSA オントロジー:KG全体で使用する制御語彙・エンティティクラス・属性・関係タイプを定義する。EUのCommon Data Model(CDM)とELI Vocabularyが構文的要素(条・節・章・法律への参照)をカバーし、Data Privacy Vocabulary(DPV)・Open Digital Rights Language(ODRL)・AI Risk Ontology(AIRO)が意味的要素をカバーする。
③ 立法からグラフを構築するツール:DSA以後に生成される立法・判例からコンテンツを抽出するLLM補助ツール。EUのCELLAR SPARQLエンドポイントから法律テキストをマークダウン形式で取得し、BAMLと独自ワークフローを用いてエンティティを抽出する手法を実験的に確立している。
④ トリプルストア:グラフはTurtle(.ttl)ファイルとして独立して存在するが、SoLiDを通じた分散ホスティングにより、追加データの関連付けと広域KGへの接続を可能にする。研究機関間でのデータ・メタデータ共有を促進し、重複するアクセス請求を削減する。
⑤ 請求の起草と記録:KGを通じて研究者が法的手続きと要件をインタラクティブに探索できるウェブインターフェースを想定する。KG内の特定の関係を法的根拠として参照した請求を標準化し、部局・大学・コンソーシアムをまたいだ請求の一元的記録を実現する。
⑥ 返却データの記録:DSAの委任規則は各プラットフォームに研究者向けデータカタログの提供を義務づけているが、現状のカタログは曖昧で技術的定義を欠く。Ontology for Social Media Data Access(OSDA)はプラットフォーム横断でデータを単一標準で正規化する語彙を提供しており、KGの拡張として組み込める。
⑦ エージェント対応ツール:KGはマシンリーダブルであり、LLMに対してナレッジベースとして提供することでハルシネーションを抑制できる。Retrieval-Augmented Generation(RAG)システムにKGを組み合わせた「Graph RAG」は、DSAアクセス申請を準備するLLMベースツールの精度を大幅に向上させうるとレポートは論じる。
誰が作り、どう維持するか
KGの初期構築はLLMと人間の協働で実現できる。EUのCELLARシステムは既存のEU法とその公式出版物のグラフ表現を保持しており、クエリによってマシンリーダブルなマークダウン形式で一貫した表現を取得できる。レポートの実験では、CELLARから法律テキストを取得してKGを生成する手法の有効性が確認されている。
ただし長期的な維持管理はコミュニティの共同作業でなければならない。オープンソースリソースとして語彙を公開した上で、研究者が請求とその結果を記録・公開する慣行を形成することが次のステップとなる。DSCが標準化語彙を用いて請求と応答データを自動検証する仕組みも展望として示されている。Wikipediaが分散型編集によって巨大な知識ベースを維持するように、KGも集合的な知識管理と配信を可能にする基盤として位置づけられる。
偽情報研究への含意
本レポートは偽情報研究の「インフラ問題」として読む必要がある。DSA第40条が偽情報研究者に付与した権利は、行使されなければ存在しないも同然である。プラットフォームが提供するクリーンルームや集計APIでは、フィルターバブルの横断分析・推薦アルゴリズムの実挙動の検証・削除済み投稿を含む偽情報キャンペーンの時系列追跡は原理的に不可能だ。個人アクセス権の流用(DSAR経由の集計)は、膨大な組織的コストに対して得られる成果が限定的であることが実証的に示されている。
セマンティックインフラが提供するのは、アクセス権を実際に行使可能にするための共通言語である。プラットフォームへの請求が法的根拠を明示した機械処理可能な形式で記録・蓄積されることで、どの請求が認められ、どの請求が拒絶され、拒絶の論理がいかに展開されたかという「アクセスの慣行史」が初めて可視化される。偽情報研究者にとって、この記録は単なる行政的透明性ではなく、プラットフォームによる選択的開示の構造そのものを分析対象とする一次資料となりうる。
なお、ODIはオープンデータ政策の推進を明示的なミッションとする機関であり、DSAの研究者アクセス条項を支持する立場に近い。本レポートはその政策的立場を反映した提言文書として読む必要がある。


コメント
Good day! I could have sworn I’ve been to this website before but after browsing through some of the post I realized it’s new to me. Anyways, I’m definitely delighted I found it and I’ll be book-marking and checking back often!