Введение: в настоящее время объем системных журналов компьютерных систем, объединенных в распределенную сетевую инфраструктуру, делает невозможным их ручную проверку в режиме реального времени. Как правило, структура каждой записи журнала содержит численное значение наблюдаемого атрибута и соответствующую пометку (маркер), помечающее запись как нормальное или аномальное.
Алгоритм описания данных опорными векторами демонстрирует высокую точность классификации уже при малых объемах обучающей выборки. Особенностью алгоритма является работа с многоатрибутным набором данных, где каждое наблюдение содержит общую классифицирующую маркировку. Следовательно, возникает задача о сведении маркировок атрибутов исходных данных к единой маркировке всего наблюдения. Цель исследования: исследование точности бинарной классификации экспериментальных данных алгоритмом описания данных опорными векторами при малом объеме обучающей выборки для случая поатрибутно маркированных экспериментальных данных. Методы исследования: предложен метод для решения задачи о сведении маркировок атрибутов исходных данных к единой маркировке посредством подходов «полностью нормальное наблюдение» и голосования по мажоритарному принципу. Рассмотрены два вида данных: упорядоченные во времени и равномерно перемешанные. Точность классификации оценена при помощи вычисления площади под ROC‑кривыми с проведением кросс-валидации при разном количестве атрибутов. Результаты: сравнительный анализ способов маркировки наблюдений показал преимущество подхода «полностью нормальное наблюдение» перед подходом «мажоритарное голосование» без «взвешивания». Показано, что точность классификации на перемешанных данных выше на 7% по сравнению с вариантом упорядочивания данных во времени. Исследована точность алгоритма при различном количестве атрибутов с использованием подхода «полностью нормальное наблюдение». Максимально достигнутая точность классификации составила порядка 96% при работе с 6 атрибутами, при равномерном перемешивании входного набора данных. Дальнейшее увеличение количества атрибутов приводит к снижению средней точности классификации по причине роста доли аномальных наблюдений. Показано, что при использовании равномерного перемешивания входных данных выигрыш по точности может быть увеличен на 15–20%. Практическая значимость: алгоритм демонстрирует экспоненциальный рост потребления вычислительных ресурсов при увеличении объема входных данных. Обсуждение: для достижения максимальной точности классификации при приемлемом потреблении ресурсов необходимо сформировать компактный набор входных данных, наиболее полно отражающий функционирование компьютерной системы в нормальном режиме.