Co jsou syntetická data a jak vám mohou pomoci zlepšit firemní bezpečnost?

Přitom často syntetická data hrají pro účely firemní bezpečnosti takřka nezastupitelnou roli. Vysvětleme si tento trochu tajemný pojem a třeba zjistíme, že ho vlastně důvěrně známe a data tohoto typu běžně využíváme.

O co vlastně jde?

Už podle názvu, data označovaná jako syntetická jsou taková data, která nevznikla „přirozeným“ způsobem, tedy sběrem, ale naopak byla účelně vytvořena. Jinými slovy, jejich zdroj neleží v databázích ani v dokumentech, data nepocházejí z výročních zpráv, reportů, dokonce ani ze senzorů chytrých zařízení. Zkrátka ze žádného takového zdroje, který nám podobná data obvykle zprostředkuje.

Jsou to data bezezbytku vygenerovaná, vytvořená programem tak, aby co nejvěrněji odpovídala těm, která obvykle ze zdrojů dat sbíráme. Dá se tedy říct, že jde o přibližné kopie reálných dat. Mají podobné parametry, totožnou strukturu, dokonce si zachovávají i obvyklé odchylky. Jsou teoreticky k nerozeznání od těch skutečných. A takováto syntetická data potom odborníci využívají při analýze, vytváření statistik nebo k vývoji umělé inteligence a zlepšování bezpečnostních řešení.

Proč to ale vlastně dělají, ptáte se? Proč k tomu účelu nevyužijí obrovské množství syrových dat, která se kolem nás doslova válejí?

Důvodů může být více. Tím nejčastějším je ale fakt, že díky GDPR je velké množství druhů dat chráněno zákonem a není dovoleno je sbírat, natož je dál jakkoliv využívat. Právě i díky tomu se často stává, že reálných dat určitého typu zkrátka není dostatečné množství. Například rozvoj umělé inteligence využívá obrovské množství dat a některé typy dat jsou prostě vzácnější než jiné.

Kde najdou využití?

Příkladů využití syntetických dat je mnoho. Dejme tomu, že banka chce vylepšit ochranu své aplikace a učí její obranné protokoly rozeznat, která data jsou citlivá, cenná, a tudíž pro útočníky lákavější. Lidé nechtějí přitom AI manuálně ukazovat, která data jsou cenná a která ne, chtějí, aby je rozeznala sama. Jenže k tomu, aby ji to naučili, potřebují ukázky takových dat. A tak vytvoří syntetická data podobná těm, která bude AI chránit.

Syntetická data ale nemusejí mít jen podobu databáze, tabulek nebo nějakého textu. Synteticky je možné vytvořit fotografie lidí a na nich pak učit algoritmy rozeznávat rysy v obličeji. Tak se učí naše chytré telefony odemykat zařízení pomocí kamery. Ani tady není možné kvůli zákonu používat fotografie skutečných uživatelů.

A podobně mohou syntetická data najít využití v libovolné firmě. Finanční instituce pomocí nich například zpřesňují své prediktivní analýzy trhu, hledají nové obchodní příležitosti. Instituce zdravotnické zase taková data běžně užívají k mapování nemocí, trasování a statistice.