Il contemperamento fra web scraping e privacy

Approfondimento di Domenico Trombino

Domenico Trombino 8 Luglio 2024
Allegati
Modifica zoom
100%


Leggiamo l’allegata nota approvata dal provvedimento in esame.

Web scraping ed intelligenza artificiale generativa: nota informativa e possibili azioni di contrasto

Introduzione.
Con il presente documento il Garante intende fornire prime indicazioni sul fenomeno della raccolta massiva di dati personali dal web per finalità di addestramento dei modelli di intelligenza artificiale generativa (di seguito anche «IAG») e segnalare possibili azioni di contrasto che i gestori di siti internet e di piattaforme online, sia pubblici che privati, operanti in Italia, quali titolari del trattamento dei dati personali oggetto di pubblicazione, potrebbero implementare al fine di prevenire, ove ritenuta incompatibile con le basi giuridiche e le finalità della pubblicazione, la raccolta di dati da parte di terzi per finalità di addestramento dei modelli di intelligenza artificiale.
Il presente documento concerne esclusivamente dati personali oggetto di diffusione in quanto pubblicati su siti web e piattaforme online.
Il documento tiene conto dei contributi ricevuti dall’Autorità nell’ambito dell’indagine conoscitiva in materia di web scraping, deliberata con provvedimento del 21 dicembre 2023, pubblicato nella Gazzetta Ufficiale n. 14 del 18 gennaio 2024.
Ad ogni modo sono rimesse ai gestori dei suddetti siti e piattaforme, pubblici e privati, nella misura in cui siano al contempo titolari del trattamento dei dati personali ai sensi del regolamento (UE) 2016/679 (di seguito «RGPD»), le valutazioni da effettuare caso per caso, sulla base della natura, dell’ambito di applicazione, del contesto e delle finalità dei dati personali trattati, del regime di pubblicità, accesso e riuso da assicurare, della tutela apprestata da altre specifiche normative (ad esempio, la normativa a tutela del diritto di autore), tenendo conto dello stato dell’arte (inteso in senso precipuamente tecnologico) e dei costi di attuazione (in particolare con riferimento alle piccole e medie imprese).
Web scraping e diritto alla protezione dei dati personali.
Nella misura in cui il web scraping implica la raccolta di informazioni riconducibile a una persona fisica indentificata o identificabile si pone un problema di protezione dati personali.
Il focus della compliance con il RGPD viene generalmente puntato sui soggetti che trattano i dati personali raccolti tramite tecniche di web scraping, in particolare con riferimento all’individuazione di una idonea base giuridica ai sensi dell’art. 6 del RGPD per la trattazione di tali dati (1) , la cui individuazione deve essere effettuata sulla base di una valutazione di idoneità che il titolare deve essere in grado di comprovare, in base al principio di accountability di cui all’art. 5, par. 2, RGPD.
Questo documento propone una diversa prospettiva, esaminando la posizione dei soggetti, pubblici e privati, gestori di siti web e piattaforme online, operanti quali titolari del trattamento di dati personali, che rendano pubblicamente disponibili, dati (anche personali) che vengono raccolti dai bot di terze parti.
In linea con tale impostazione, il documento indica alcune tra le possibili cautele che, sulla scorta di una valutazione da effettuarsi caso per caso, i titolari del trattamento di dati personali resi disponibili online per finalità diverse e sulla base di differenti condizioni di legittimità possono implementare al fine di prevenire o mitigare, in maniera selettiva, l’attività di web scraping per finalità di addestramento di modelli di intelligenza artificiale generativa.
Al riguardo pare opportuno ricordare che ogni titolare del trattamento di dati personali, soggetto pubblico o privato, ai sensi del regolamento puo’ rendere disponibili al pubblico tali dati personali esclusivamente per finalità specifiche e sulla base di una o più condizioni di legittimità tra quelle previste all’art. 6 del regolamento (es: obblighi di trasparenza, pubblicità legale, procedure a evidenza pubblica, diritto di cronaca, contratto in essere con gli interessati).
Il giudizio di liceità del web scraping deve, dunque, essere effettuato caso per caso sulla base dei diversi e contrapposti diritti in gioco: in tal senso, per le finalità di questo documento, tale liceità non è e non puo’ che essere oggetto di valutazione in termini meramente teorici.
Si precisa, inoltre, che il presente documento non si occupa di indicare le misure di sicurezza che i titolari del trattamento debbono implementare per proteggere i dati personali da operazioni qualificabili come web scraping «malevolo», in quanto in grado di
sfruttare delle vulnerabilità dei sistemi informativi non adeguatamente protetti dal punto di vista della sicurezza informatica. Sotto tale profilo rimane fermo, ai sensi dell’art. 32 del RGPD, l’obbligo in capo ai titolari del trattamento di assicurare, su base permanente, la riservatezza, l’integrità, la disponibilità e la resilienza dei sistemi e dei servizi di trattamento. A tal proposito, si richiamano i principi espressi nella decisione adottata, nel novembre 2022, dall’autorità irlandese nei confronti di Meta Platforms Ireland Ltd (2) in merito alla mancata adeguata protezione dei dati (a causa di impostazioni non conformi al RGPD degli strumenti Facebook Search, Facebook Messenger Contact Importer e Instagram Contact Importer) ed alla conseguente raccolta online, tramite tecniche di web scraping adottate da terze parti, dei dati di circa 533 milioni di utenti del servizio Facebook nel periodo compreso tra il 25 maggio 2018 e settembre 2019 (3) .
Le tecniche di raccolta massiva di dati dal web e le loro finalità.
La nascita e l’affermazione di internet sono intrinsecamente connesse alla sua architettura tecnologica aperta basata su standard informatici de facto, indipendenti da specifiche «proprietarie», fondati sulla suite di protocolli TCP (Transmission Control Protocol)
e IP (Internet Protocol). Con il tempo, a tali protocolli si è aggiunto, tra gli altri, il protocollo HTTP (Hyper Text Transfer Protocol) con il quale, a seguito della decisione del CERN di Ginevra di renderlo pubblico nel 1990, è stato possibile lo sviluppo libero del World Wide Web (di seguito «web») cosi’ come lo conosciamo, con la prima formalizzazione in forma di standard (HTTP/1.1) con il documento RFC-2068 del 1997.
La navigazione nel web si basa, quindi, su protocolli aperti che consentono di reperire informazioni e dati pubblicamente disponibili online oppure resi disponibili in aree ad accesso controllato.
Informazioni e dati possono essere raccolti in maniera sistematica anche attraverso programmi (web robot o, più semplicemente, bot) che operano in maniera automatizzata simulando la navigazione umana, a condizione che le risorse (e.g. siti web, contenuti, etc.) visitate da questi ultimi risultino accessibili al pubblico indistinto e non sottoposte a controlli di accesso.
Un recente studio condotto da Imperva (4) , una società del gruppo francese Thales, ha rivelato che, nell’anno 2023, il 49,6% di tutto il traffico internet è stato generato dai bot con un aumento pari al 2,1% rispetto all’anno precedente, aumento che è stato parzialmente ricondotto alla diffusione di sistemi di intelligenza artificiale e, in particolare, dei modelli linguistici di grandi dimensioni (di seguito anche «LLM» – Large Language Model) sottesi all’intelligenza artificiale generativa (5) .
(…)

Continua la lettura dell’approfondimento di Domenico Trombino

Scrivi un commento

Accedi per poter inserire un commento