Heb je deel 1 gemist? Lees hem hier!
Om persoonsgegevens te mogen verzamelen, moeten ze aan een of meer van de beginselen van verwerking voldoen, zoals
rechtmatigheid, transparantie, doelbinding en juistheid. Voldoet een persoonsgegeven hier niet aan, dan is het verzamelen ervan niet toegestaan. De kans bestaat echter dat je onrechtmatig persoonsgegevens verwerkt, zonder dat je je hier bewust van bent. Bijvoorbeeld doordat je tools of scripts op je website gebruikt die meten op welke URL een bezoeker zich bevindt. Deze URL kan bijvoorbeeld een e-mailadres bevatten als de klant via een klantmail je website bezoekt.
In deel 1 van deze blog deelde ik de zogenaamde ‘PII-preventiematrix’ en heb ik laten zien hoe je blacklisting en whitelisting van persoonsgegevens toolonafhankelijk kan toepassen. Daarbij werd ook duidelijk dat, met de toolonafhankelijke oplossing, de onbedoelde verzameling van persoonsgegevens beperkt bleef tot de persoonsgegevens in de metadata van een pagina. Daarom ga ik in dit tweede deel van de blog in op blacklisting en whitelisting middels een toolafhankelijke oplossing. Hierin laat ik zien hoe je PII kan blacklisten en whitelisten in Google Analytics. Ik sluit af met een aanbeveling over de meest geschikte oplossing en leg stap voor stap de implementatie hiervan uit.
Blacklisting in Google Analytics
In zijn blog laat Simo Ahava zien hoe het customTask veld gebruikt kan worden om de hit die naar de Google servers verstuurd wordt te checken op reguliere expressies van persoonsgegevens. Persoonsgegevens die in de hit voorkomen, worden vervolgens vervangen door bijvoorbeeld de tekst “[REDACTED_EMAIL]”.
Het nette van de manier die Simo beschrijft, is dat de hele hit gecheckt wordt op de aanwezigheid van bepaalde reguliere expressies. Dus bijvoorbeeld niet alleen de URL of paginatitel, maar alle hit parameters die naar de Google servers verstuurd worden. Daarbij is de lijst van reguliere expressies die binnen de customTask gebruikt wordt flexibel, in de zin dat de lijst met reguliere expressies gemakkelijk aangepast en uitgebreid kan worden naar de wensen van jouw organisatie.
Whitelisting in Google Analytics
Het nadeel van blacklisting is dat je van tevoren moet weten aan welk patronen de verschillende types persoonsgegevens voldoen. En vaak weet je dat niet. Denk bijvoorbeeld aan een zoekterm die op je website ingevoerd wordt: hoe onderscheid je bijvoorbeeld een zoekterm naar een product van een zoekterm die een persoonsgegeven bevat? De veilige optie is dan om het zoekveld helemaal niet te meten.
Soms kun je echter gebruik maken van whitelisting – alleen de waarden die voldoen aan door jou gespecificeerde patronen worden verzameld. Patronen die er niet aan voldoen, dienen vervangen worden. Hiervoor moet de whitelist eerst omgebogen tot een blacklist - dit kwam in deel 1 van deze blog aan bod.
Het gebruik van whitelisting verlaagt het risico om onbedoeld persoonsgegevens te verzamelen. Daar staat tegenover dat je het risico loopt om gegevens mis te lopen die geen persoonsgegevens bevatten als je whitelist niet volledig is. En die kans is groot. Hoe kun je immers alle teksten die je wilt whitelisten specificeren?
Welke oplossing om de onbedoelde verzameling van persoonsgegevens te voorkomen is dan de beste?
Het doel van deze en vorige blog was om jou te laten zien dat er verschillende benaderingen zijn om de verzameling van persoonsgegevens te voorkomen en om jou hierin enkele handreikingen te bieden. Maar welke van de beschreven oplossingen uit deel 1 en 2 van deze blog is dan de beste? Disclaimer: het doorvoeren van de beschreven oplossingen is geenszins volledig om aan de privacywetgeving te voldoen.
Mijn persoonlijke voorkeur gaat altijd uit naar whitelisting waar mogelijk. Hiermee loop je immers het laagste risico om onbedoeld persoonsgegevens te verzamelen. We hebben gezien dat URL-parameters hier bij uitstek geschikt voor zijn. Echter, in theorie is het mogelijk dat er zelfs in de waarde van een gewhiteliste parameter, bijvoorbeeld een campagne tracking parameter, persoonsgegevens staan. Ook kun je niet alle data die toegestaan is om te verzamelen, vangen in whitelists. Vanwege deze redenen ontkom je er niet aan om ook blacklists te hanteren. Waar mogelijk is een combinatie van whitelisting en blacklisting daarom aan te raden.
Gebruik je alleen Google Analytics op je site en ben je op korte termijn niet van plan andere scripts te gebruiken? Dan volstaat het om te kiezen voor de Google-Analyticsspecifieke oplossing om de verzameling van persoonsgegevens te voorkomen (nogmaals, credits hiervoor gaan naar Simo Ahava). De toolonafhankelijke oplossing waarbij persoonsgegevens in de URL en titel van de webpagina worden vervangen heeft in dit geval geen meerwaarde. Immers, bij de Google-Analyticsspecifieke oplossing wordt de volledige payload gecheckt op PII-patronen en deze payload is inclusief de pagina-URL en paginatitel. Wel is het aan te raden om een whitelist te herschrijven als blacklist en deze binnen de customTask op te nemen.
Gebruik je ook andere scripts dan alleen die van Google Analytics? Dan is het aan te raden om toolonafhankelijk een combinatie van blacklisting en whitelisting te gebruiken om de verzameling van persoonsgegevens in de URL en titel van een webpagina te voorkomen. Daarnaast kun je binnen Google Analytics de verzameling van persoonsgegevens voorkomen door het customTask veld te gebruiken. Ook hiervoor is het aan te raden een combinatie van blacklisting en whitelisting te gebruiken. De combinatie van toolonafhankelijke en toolafhankelijke black- en whitelisting wordt in het volgende hoofdstuk beschreven.