Evaluating Feature Encodings for Unsupervised Machine Learning Classification in Automotive Ethernet Network

Date issued

2025

Journal Title

Journal ISSN

Volume Title

Publisher

Institute of Electrical and Electronics Engineers, Inc.

Abstract

Categorical attributes such as MAC and IP addresses constitute an integral part of Ethernet network data, and play a crucial role in modern network infrastructure. Representing these intrinsic entities with high cardinality presents a considerable performance challenge pertaining to machine learning tasks. In order to better manage the representations of the categorical attributes found in network data, this work presents new methods for transforming them. Some of these encoding schemes are designed using domain knowledge to limit the number of dimensions introduced in data while performing transformations. This study uses two specific Autoencoder deep neural networks for the unsupervised classification task to help assess the classification performance for the proposed encoding schemes. These varied encodings used to transform Ethernet network data from a real vehicle serve as a novel contribution to the feature engineering for analyzing the network data using machine learning approaches. The evaluation results show that the proposed techniques have a key impact on the classification performance, and the encoding schemes IE and ISF performed reasonably well in all three attack scenarios for each model.
Kategorické atributy jako jsou MAC a IP adresy představují integrální část ethernetových síťových dat a hrají klíčovou roli v moderní síťové architektuře. Reprezentovat tyto intrinsické entity s vysokou kardinalitou představuje značnou výzvu pro výkonnost týkající se úkolů strojového učení. Abychom mohli lépe kontrolovat reprezentace kategorických atributů nalezených v síťových datech, jsou v tomto příspěvku ukázány nové metody jejich transformace. Některá z těchto kódovacích schémat jsou navržena tak, že se použijí doménové znalosti, aby se omezil počet dimenzí zavedených do dat během transformací. V této studii jsou použity dvě specifické samokódovací hluboké neuronové sítě pro klasifikační úkol (bez učitele), aby pomohly ohodnotit výkonnost klasifikace pro daná kódovací schémata. Tato různá kódování použitá ke transformaci ethernetových síťových dat z reálného vozu slouží jako nový příspěvek k inženýrství charakteristik pro analýzu síťových dat na bázi metod strojového učení. Dosažené výsledky dokládají, že navržené přístupy mají klíčový dopad na výkonnost klasifikace a že kódovací schémata IE a ISF obstála dostatečně dobře ve všech třech scénářích útoku pro každý model.

Description

Subject(s)

feature encoding, high cardinality, anomaly detection, automotive ethernet, categorical attributes, unsupervised machine learning, kódování atributů, vysoká kardinalita, detekce anomálií, automotivní ethernet, kategorické atributy, strojové učení bez učitele

Citation