On the Improvement of the Isolation Forest Algorithm for Outlier Detection with Streaming Data

Abstract

V posledních letech se detekce anomálií v počítačových sítích reálného světa stala stále obtížnější kvůli trvalému nárůstu vysoce objemných, rychlých a dimenzionálních průběžně přicházejících dat, pro která nejsou k dispozici obecně uznané a pravdivé informace o anomalitě. Účinná detekční schémata pro vestavěná síťová zařízení musejí být rychlá a paměťově nenáročná a musejí být schopna se potýkat se změnami konceptu, když se vyskytnou. Pro online detekci anomálií bez učitele byly navrženy různé přístupy, které za těchto podmínek spolehlivě identifikují zlovolnou aktivitu. V tomto příspěvku představujeme nový aplikační rámec nazvaný PCB-iForest, jenž je obecně schopen využít jakoukoliv online metodu pro detekci extrémních hodnot založenou na množinách dat tak, aby fungovala na průběžně přicházejících datech. Pečlivě zformulované požadavky srovnáváme s nejpopulárnějšími stávajícími uznávanými online metodami se zvláštním zřetelem na varianty široce přijímaného algoritmu izolovaného lesa a ukazujeme při tom, že dosud neexistovalo flexibilní a výkonné řešení, které přináší až algoritmus PCB-iForest. Proto do tohoto algoritmu integrujeme dvě varianty – zlepšení izolovaného lesa, jež se nazývá rozšířený izolovaný les, a klasickou variantu izolovaného lesa vybavenou funkcionalitou k ohodnocení vlastností podle jejich přispění k anomalitě datového vzorku. Provádíme rozsáhlé experimenty na 23 multidisciplinárních datových sadách týkajících se bezpečnostní problematiky reálného světa za účelem podrobného srovnání naší implementace s již existujícími metodami. Diskuse našich výsledků zahrnující indikátory AUC, F1 a průměrnou dobu zpracování ukazuje, že PCB-iForest jasně překonává už zavedené konkurenční metody v 61 % případů a dokonce dosahuje ještě slibnějších výsledků co do vyváženosti mezi výpočetními náklady na klasifikaci a její úspěšností.

Description

Subject(s)

detekce vniknutí, detekce anomálií, průběžně přicházející data, síťová bezpečnos, online učení, učení bez učitele, strojové učení

Citation

HEIGL, M., ANAND, KA., URMANN, A., FIALA, D., SCHRAMM, M., HABLE, R. On the Improvement of the Isolation Forest Algorithm for Outlier Detection with Streaming Data. Electronics, 2021, roč. 10, č. 13. ISSN 2079-9292.
OPEN License Selector