Scoring System for Quantifying the Privacy in Re-Identification of Tabular Datasets

Folz, Jakob

Scoring System for Quantifying the Privacy in Re-Identification of Tabular Datasets

dc.contributor.author	Folz, Jakob
dc.contributor.author	Vidanalage, Manjitha D.
dc.contributor.author	Aufschlager, Robert
dc.contributor.author	Almaini, Amar
dc.contributor.author	Heigl, Michael
dc.contributor.author	Fiala, Dalibor
dc.contributor.author	Schramm, Martin
dc.date.accessioned	2026-04-30T18:06:26Z
dc.date.available	2026-04-30T18:06:26Z
dc.date.issued	2025
dc.date.updated	2026-04-30T18:06:26Z
dc.description.abstract	This study introduces the System for Calculating Open Data Re-identification Risk (SCORR), a framework for quantifying privacy risks in tabular datasets. SCORR extends conventional metrics such as k-anonymity, l-diversity, and t-closeness with novel extended metrics, including uniqueness-only risk, uniformity-only risk, correlation-only risk, and Markov Model risk, to identify a broader range of re-identification threats. It efficiently analyses event-level and person-level datasets with categorical and numerical attributes. Experimental evaluations were conducted on three publicly available datasets: OULAD, HID, and Adult, across multiple anonymisation levels. The results indicate that higher anonymisation levels do not always proportionally enhance privacy. While stronger generalisation improves k-anonymity, l-diversity and t-closeness vary significantly across datasets. Uniqueness-only and uniformity-only risk decreased with anonymisation, whereas correlation-only risk remained high. Meanwhile, Markov Model risk consistently remained high, indicating little to no improvement regardless of the anonymisation level. Scalability analysis revealed that conventional metrics and Uniqueness-only risk incurred minimal computational overhead, remaining independent of dataset size. However, correlation-only and uniformity-only risk required significantly more processing time, while Markov Model risk incurred the highest computational cost. Despite this, all metrics remained unaffected by the number of quasi-identifiers, except t-closeness, which scaled linearly beyond a certain threshold. A usability evaluation comparing SCORR with the freely available ARX Tool showed that SCORR reduced the number of user interactions required for risk analysis by 59.38%, offering a more streamlined and efficient process. These results confirm SCORR’s effectiveness in helping data custodians balance privacy protection and data utility, advancing privacy risk assessment beyond existing tools.	en
dc.description.abstract	Tato studie seznámí čtenáře se systémem pro výpočet rizika reidentifikace otevřených dat (SCORR), což je rámec pro kvantifikaci rizika pro soukromí v tabulárních datových sadách. SCORR jde dále, než jsou konvenční metriky jako k-anonymita, l-diverzita a t-blízkost, a zavádí nové rozšířené metriky včetně rizika pouhé unikátnosti, uniformity a korelace a rizika Markovova modelu, aby identifikoval širší rozsah reidentifikačních hrozeb. Efektivně analyzuje datové sady na úrovni událostí a osob kategorickými a numerickými atributy. Experimentální evaluace byla provedena přes několik anonymizačních úrovní na třech veřejně dostupných datových sadách: OULAD, HID a Adult. Výsledky ukazují, že vyšší úrovně anonymizace nezlepšují vždy soukromí proporčně. Zatímco silnější zobecnění zvyšuje k-anonymitu, l-diverzita a t-blízkost se významně liší mezi jednotlivými datovými sadami. Riziko pouhé unikátnosti a pouhé uniformity se s anonymizací snížilo, ale riziko pouhé korelace zůstalo vysoké. Riziko Markovova modelu zůstávalo stále vysoké a vykazovalo jen malé nebo dokonce žádné zlepšení bez ohledu na úroveň anonymizace. Analýza škálovatelnosti prozradila, že konvenční metriky a riziko pouhé unikátnosti měly za následek jen minimální výpočetní režii a zůstávaly nezávislé na velikosti dat. Nicméně riziko pouhé korelace a riziko pouhé uniformity vyžadovaly významně více výpočetního času a riziko Markovova modelu způsobovalo zdaleka největší výpočetní náklady. Přesto zůstaly všechny metriky neovlivněny počtem poloidentifikátorů, s výjimkou t-blízkosti, která měla lineární průběh výpočetních nákladů po dosažení určité prahové hodnoty. Hodnocení použitelnosti ukázalo, že ve srovnání s volně dostupným nástrojem ARX Tool snižuje SCORR počet uživatelských interakcí nutných k analýze rizika o 59,38 % a nabízí přímočařejší a efektivnější proces. Tyto výsledky potvrzují efektivitu systému SCORR, který pomáhá vlastníkům dat vybalancovat ochranu soukromí s jejich užitečností a posunuje evaluaci rizika pro soukromí nad úroveň současných nástrojů.	cz
dc.format	17
dc.identifier.document-number	001483833000011
dc.identifier.doi	10.1109/ACCESS.2025.3563309
dc.identifier.issn	2169-3536
dc.identifier.obd	43946560
dc.identifier.orcid	Folz, Jakob 0000-0002-8428-1916
dc.identifier.orcid	Fiala, Dalibor 0000-0002-2528-771X
dc.identifier.uri	http://hdl.handle.net/11025/67928
dc.language.iso	en
dc.relation.ispartofseries	IEEE Access
dc.rights.access	A
dc.subject	anonymisation	en
dc.subject	correlation	en
dc.subject	GDPR	en
dc.subject	open data	en
dc.subject	privacy	en
dc.subject	re-identification risk	en
dc.subject	uniformity	en
dc.subject	uniqueness	en
dc.subject	anonymizace	cz
dc.subject	korelace	cz
dc.subject	GDPR	cz
dc.subject	otevřená data	cz
dc.subject	soukromí	cz
dc.subject	riziko reidentifikace	cz
dc.subject	uniformita	cz
dc.subject	unikátnost	cz
dc.title	Scoring System for Quantifying the Privacy in Re-Identification of Tabular Datasets	en
dc.title	Skórovací systém pro kvantifikaci soukromí v reidentifikaci tabulárních datových sad	cz
dc.type	Článek v databázi WoS (Jimp)
dc.type	ČLÁNEK
dc.type.status	Published Version
local.files.count	1	*
local.files.size	4192257	*
local.has.files	yes	*
local.identifier.eid	2-s2.0-105003630715

Files

Original bundle

Showing 1 - 1 out of 1 results

Name:: paper_J_Access2025.pdf
Size:: 4 MB
Format:: Adobe Portable Document Format

Download

License bundle

Showing 1 - 1 out of 1 results

Name:: license.txt
Size:: 1.71 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

Articles (KIV)