Scoring System for Quantifying the Privacy in Re-Identification of Tabular Datasets

dc.contributor.authorFolz, Jakob
dc.contributor.authorVidanalage, Manjitha D.
dc.contributor.authorAufschlager, Robert
dc.contributor.authorAlmaini, Amar
dc.contributor.authorHeigl, Michael
dc.contributor.authorFiala, Dalibor
dc.contributor.authorSchramm, Martin
dc.date.accessioned2026-04-30T18:06:26Z
dc.date.available2026-04-30T18:06:26Z
dc.date.issued2025
dc.date.updated2026-04-30T18:06:26Z
dc.description.abstractThis study introduces the System for Calculating Open Data Re-identification Risk (SCORR), a framework for quantifying privacy risks in tabular datasets. SCORR extends conventional metrics such as k-anonymity, l-diversity, and t-closeness with novel extended metrics, including uniqueness-only risk, uniformity-only risk, correlation-only risk, and Markov Model risk, to identify a broader range of re-identification threats. It efficiently analyses event-level and person-level datasets with categorical and numerical attributes. Experimental evaluations were conducted on three publicly available datasets: OULAD, HID, and Adult, across multiple anonymisation levels. The results indicate that higher anonymisation levels do not always proportionally enhance privacy. While stronger generalisation improves k-anonymity, l-diversity and t-closeness vary significantly across datasets. Uniqueness-only and uniformity-only risk decreased with anonymisation, whereas correlation-only risk remained high. Meanwhile, Markov Model risk consistently remained high, indicating little to no improvement regardless of the anonymisation level. Scalability analysis revealed that conventional metrics and Uniqueness-only risk incurred minimal computational overhead, remaining independent of dataset size. However, correlation-only and uniformity-only risk required significantly more processing time, while Markov Model risk incurred the highest computational cost. Despite this, all metrics remained unaffected by the number of quasi-identifiers, except t-closeness, which scaled linearly beyond a certain threshold. A usability evaluation comparing SCORR with the freely available ARX Tool showed that SCORR reduced the number of user interactions required for risk analysis by 59.38%, offering a more streamlined and efficient process. These results confirm SCORR’s effectiveness in helping data custodians balance privacy protection and data utility, advancing privacy risk assessment beyond existing tools.en
dc.description.abstractTato studie seznámí čtenáře se systémem pro výpočet rizika reidentifikace otevřených dat (SCORR), což je rámec pro kvantifikaci rizika pro soukromí v tabulárních datových sadách. SCORR jde dále, než jsou konvenční metriky jako k-anonymita, l-diverzita a t-blízkost, a zavádí nové rozšířené metriky včetně rizika pouhé unikátnosti, uniformity a korelace a rizika Markovova modelu, aby identifikoval širší rozsah reidentifikačních hrozeb. Efektivně analyzuje datové sady na úrovni událostí a osob kategorickými a numerickými atributy. Experimentální evaluace byla provedena přes několik anonymizačních úrovní na třech veřejně dostupných datových sadách: OULAD, HID a Adult. Výsledky ukazují, že vyšší úrovně anonymizace nezlepšují vždy soukromí proporčně. Zatímco silnější zobecnění zvyšuje k-anonymitu, l-diverzita a t-blízkost se významně liší mezi jednotlivými datovými sadami. Riziko pouhé unikátnosti a pouhé uniformity se s anonymizací snížilo, ale riziko pouhé korelace zůstalo vysoké. Riziko Markovova modelu zůstávalo stále vysoké a vykazovalo jen malé nebo dokonce žádné zlepšení bez ohledu na úroveň anonymizace. Analýza škálovatelnosti prozradila, že konvenční metriky a riziko pouhé unikátnosti měly za následek jen minimální výpočetní režii a zůstávaly nezávislé na velikosti dat. Nicméně riziko pouhé korelace a riziko pouhé uniformity vyžadovaly významně více výpočetního času a riziko Markovova modelu způsobovalo zdaleka největší výpočetní náklady. Přesto zůstaly všechny metriky neovlivněny počtem poloidentifikátorů, s výjimkou t-blízkosti, která měla lineární průběh výpočetních nákladů po dosažení určité prahové hodnoty. Hodnocení použitelnosti ukázalo, že ve srovnání s volně dostupným nástrojem ARX Tool snižuje SCORR počet uživatelských interakcí nutných k analýze rizika o 59,38 % a nabízí přímočařejší a efektivnější proces. Tyto výsledky potvrzují efektivitu systému SCORR, který pomáhá vlastníkům dat vybalancovat ochranu soukromí s jejich užitečností a posunuje evaluaci rizika pro soukromí nad úroveň současných nástrojů.cz
dc.format17
dc.identifier.document-number001483833000011
dc.identifier.doi10.1109/ACCESS.2025.3563309
dc.identifier.issn2169-3536
dc.identifier.obd43946560
dc.identifier.orcidFolz, Jakob 0000-0002-8428-1916
dc.identifier.orcidFiala, Dalibor 0000-0002-2528-771X
dc.identifier.urihttp://hdl.handle.net/11025/67928
dc.language.isoen
dc.relation.ispartofseriesIEEE Access
dc.rights.accessA
dc.subjectanonymisationen
dc.subjectcorrelationen
dc.subjectGDPRen
dc.subjectopen dataen
dc.subjectprivacyen
dc.subjectre-identification risken
dc.subjectuniformityen
dc.subjectuniquenessen
dc.subjectanonymizacecz
dc.subjectkorelacecz
dc.subjectGDPRcz
dc.subjectotevřená datacz
dc.subjectsoukromícz
dc.subjectriziko reidentifikacecz
dc.subjectuniformitacz
dc.subjectunikátnostcz
dc.titleScoring System for Quantifying the Privacy in Re-Identification of Tabular Datasetsen
dc.titleSkórovací systém pro kvantifikaci soukromí v reidentifikaci tabulárních datových sadcz
dc.typeČlánek v databázi WoS (Jimp)
dc.typeČLÁNEK
dc.type.statusPublished Version
local.files.count1*
local.files.size4192257*
local.has.filesyes*
local.identifier.eid2-s2.0-105003630715

Files

Original bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
paper_J_Access2025.pdf
Size:
4 MB
Format:
Adobe Portable Document Format
License bundle
Showing 1 - 1 out of 1 results
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description:

Collections