Scoring System for Quantifying the Privacy in Re-Identification of Tabular Datasets
| dc.contributor.author | Folz, Jakob | |
| dc.contributor.author | Vidanalage, Manjitha D. | |
| dc.contributor.author | Aufschlager, Robert | |
| dc.contributor.author | Almaini, Amar | |
| dc.contributor.author | Heigl, Michael | |
| dc.contributor.author | Fiala, Dalibor | |
| dc.contributor.author | Schramm, Martin | |
| dc.date.accessioned | 2026-04-30T18:06:26Z | |
| dc.date.available | 2026-04-30T18:06:26Z | |
| dc.date.issued | 2025 | |
| dc.date.updated | 2026-04-30T18:06:26Z | |
| dc.description.abstract | This study introduces the System for Calculating Open Data Re-identification Risk (SCORR), a framework for quantifying privacy risks in tabular datasets. SCORR extends conventional metrics such as k-anonymity, l-diversity, and t-closeness with novel extended metrics, including uniqueness-only risk, uniformity-only risk, correlation-only risk, and Markov Model risk, to identify a broader range of re-identification threats. It efficiently analyses event-level and person-level datasets with categorical and numerical attributes. Experimental evaluations were conducted on three publicly available datasets: OULAD, HID, and Adult, across multiple anonymisation levels. The results indicate that higher anonymisation levels do not always proportionally enhance privacy. While stronger generalisation improves k-anonymity, l-diversity and t-closeness vary significantly across datasets. Uniqueness-only and uniformity-only risk decreased with anonymisation, whereas correlation-only risk remained high. Meanwhile, Markov Model risk consistently remained high, indicating little to no improvement regardless of the anonymisation level. Scalability analysis revealed that conventional metrics and Uniqueness-only risk incurred minimal computational overhead, remaining independent of dataset size. However, correlation-only and uniformity-only risk required significantly more processing time, while Markov Model risk incurred the highest computational cost. Despite this, all metrics remained unaffected by the number of quasi-identifiers, except t-closeness, which scaled linearly beyond a certain threshold. A usability evaluation comparing SCORR with the freely available ARX Tool showed that SCORR reduced the number of user interactions required for risk analysis by 59.38%, offering a more streamlined and efficient process. These results confirm SCORR’s effectiveness in helping data custodians balance privacy protection and data utility, advancing privacy risk assessment beyond existing tools. | en |
| dc.description.abstract | Tato studie seznámí čtenáře se systémem pro výpočet rizika reidentifikace otevřených dat (SCORR), což je rámec pro kvantifikaci rizika pro soukromí v tabulárních datových sadách. SCORR jde dále, než jsou konvenční metriky jako k-anonymita, l-diverzita a t-blízkost, a zavádí nové rozšířené metriky včetně rizika pouhé unikátnosti, uniformity a korelace a rizika Markovova modelu, aby identifikoval širší rozsah reidentifikačních hrozeb. Efektivně analyzuje datové sady na úrovni událostí a osob kategorickými a numerickými atributy. Experimentální evaluace byla provedena přes několik anonymizačních úrovní na třech veřejně dostupných datových sadách: OULAD, HID a Adult. Výsledky ukazují, že vyšší úrovně anonymizace nezlepšují vždy soukromí proporčně. Zatímco silnější zobecnění zvyšuje k-anonymitu, l-diverzita a t-blízkost se významně liší mezi jednotlivými datovými sadami. Riziko pouhé unikátnosti a pouhé uniformity se s anonymizací snížilo, ale riziko pouhé korelace zůstalo vysoké. Riziko Markovova modelu zůstávalo stále vysoké a vykazovalo jen malé nebo dokonce žádné zlepšení bez ohledu na úroveň anonymizace. Analýza škálovatelnosti prozradila, že konvenční metriky a riziko pouhé unikátnosti měly za následek jen minimální výpočetní režii a zůstávaly nezávislé na velikosti dat. Nicméně riziko pouhé korelace a riziko pouhé uniformity vyžadovaly významně více výpočetního času a riziko Markovova modelu způsobovalo zdaleka největší výpočetní náklady. Přesto zůstaly všechny metriky neovlivněny počtem poloidentifikátorů, s výjimkou t-blízkosti, která měla lineární průběh výpočetních nákladů po dosažení určité prahové hodnoty. Hodnocení použitelnosti ukázalo, že ve srovnání s volně dostupným nástrojem ARX Tool snižuje SCORR počet uživatelských interakcí nutných k analýze rizika o 59,38 % a nabízí přímočařejší a efektivnější proces. Tyto výsledky potvrzují efektivitu systému SCORR, který pomáhá vlastníkům dat vybalancovat ochranu soukromí s jejich užitečností a posunuje evaluaci rizika pro soukromí nad úroveň současných nástrojů. | cz |
| dc.format | 17 | |
| dc.identifier.document-number | 001483833000011 | |
| dc.identifier.doi | 10.1109/ACCESS.2025.3563309 | |
| dc.identifier.issn | 2169-3536 | |
| dc.identifier.obd | 43946560 | |
| dc.identifier.orcid | Folz, Jakob 0000-0002-8428-1916 | |
| dc.identifier.orcid | Fiala, Dalibor 0000-0002-2528-771X | |
| dc.identifier.uri | http://hdl.handle.net/11025/67928 | |
| dc.language.iso | en | |
| dc.relation.ispartofseries | IEEE Access | |
| dc.rights.access | A | |
| dc.subject | anonymisation | en |
| dc.subject | correlation | en |
| dc.subject | GDPR | en |
| dc.subject | open data | en |
| dc.subject | privacy | en |
| dc.subject | re-identification risk | en |
| dc.subject | uniformity | en |
| dc.subject | uniqueness | en |
| dc.subject | anonymizace | cz |
| dc.subject | korelace | cz |
| dc.subject | GDPR | cz |
| dc.subject | otevřená data | cz |
| dc.subject | soukromí | cz |
| dc.subject | riziko reidentifikace | cz |
| dc.subject | uniformita | cz |
| dc.subject | unikátnost | cz |
| dc.title | Scoring System for Quantifying the Privacy in Re-Identification of Tabular Datasets | en |
| dc.title | Skórovací systém pro kvantifikaci soukromí v reidentifikaci tabulárních datových sad | cz |
| dc.type | Článek v databázi WoS (Jimp) | |
| dc.type | ČLÁNEK | |
| dc.type.status | Published Version | |
| local.files.count | 1 | * |
| local.files.size | 4192257 | * |
| local.has.files | yes | * |
| local.identifier.eid | 2-s2.0-105003630715 |
Files
Original bundle
1 - 1 out of 1 results
No Thumbnail Available
- Name:
- paper_J_Access2025.pdf
- Size:
- 4 MB
- Format:
- Adobe Portable Document Format
License bundle
1 - 1 out of 1 results
No Thumbnail Available
- Name:
- license.txt
- Size:
- 1.71 KB
- Format:
- Item-specific license agreed upon to submission
- Description: