Informacja o cookies

Zgadzam się Nasza strona zapisuje niewielkie pliki tekstowe, nazywane ciasteczkami (ang. cookies) na Twoim urządzeniu w celu lepszego dostosowania treści oraz dla celów statystycznych. Możesz wyłączyć możliwość ich zapisu, zmieniając ustawienia Twojej przeglądarki. Korzystanie z naszej strony bez zmiany ustawień oznacza zgodę na przechowywanie cookies w Twoim urządzeniu.

Publikacje Pracowników Politechniki Lubelskiej

MNiSW
200
Lista 2021
Status:
Autorzy: Tokovarov Mikhail, Karczmarek Paweł
Dyscypliny:
Aby zobaczyć szczegóły należy się zalogować.
Rok wydania: 2022
Wersja dokumentu: Drukowana | Elektroniczna
Język: angielski
Wolumen/Tom: 584
Strony: 433 - 449
Web of Science® Times Cited: 25
Scopus® Cytowania: 31
Bazy: Web of Science | Scopus
Efekt badań statutowych NIE
Finansowanie: Funded by the National Science Centre, Poland under CHIST-ERA programme (Grant no. 2018/28/Z/ST6/00563).
Materiał konferencyjny: NIE
Publikacja OA: TAK
Licencja:
Sposób udostępnienia: Witryna wydawcy
Wersja tekstu: Ostateczna wersja opublikowana
Czas opublikowania: W momencie opublikowania
Data opublikowania w OA: 7 listopada 2021
Abstrakty: angielski
The problem of finding anomalies and outliers in datasets is one of the most important challenges of modern data analysis. Among the commonly dedicated tools to solve this task one can find Isolation Forest (IF) that is an efficient, conceptually simple, and fast method. In this study, we propose the Probabilistic Generalization of Isolation Forest (PGIF) that is an intuitively appealing and efficient enhancement of the original approach. The proposed generalization is based on nonlinear dependence of segment-cumulated probability from the length of segment. Introduction of the generalization allows to achieve more effective splits that are rather performed between the clusters, i.e. regions where datapoints constitute dense formations and not through them. In a comprehensive series of experiments, we show that the proposed method allows us to detect anomalies hidden between clusters more effectively. Moreover, it is demonstrated that our approach favorably affects the quality of anomaly detection in both artificial and real datasets. In terms of time complexity our method is close to the original one since the generalization is related only to the building of the trees while the scoring procedure (which takes the main time) is kept unchanged.