Baza Publikacji Pracowników Politechniki Lubelskiej

Status:
Warianty tytułu:	Metody głębokiego uczenia w rozpoznawaniu chorób siatkówki : Od augmentacji danych do transformerów wizyjnych
Autorzy:	Powroźnik Paweł
Dyscypliny:
	Aby zobaczyć szczegóły należy się zalogować.
Rok wydania:	2026
Serie:	Monografie - Politechnika Lubelska
Wersja dokumentu:	Drukowana \| Elektroniczna
Język:	angielski
Liczba stron:	243
Miejsce wydania:	Lublin
Wydawnictwo:	Wydawnictwo Politechniki Lubelskiej
Efekt badań statutowych	NIE
Materiał konferencyjny:	NIE
Publikacja OA:	TAK
Licencja:
Sposób udostępnienia:	Otwarte repozytorium
Wersja tekstu:	Ostateczna wersja opublikowana
Czas opublikowania:	W momencie opublikowania
Data opublikowania w OA:	20 kwietnia 2026
Abstrakty:	polski \| angielski
	Monografia poświęcona jest problematyce automatycznego rozpoznawania rzadkich chorób siatkówki z użyciem zaawansowanych metod głębokiego uczenia. Praca stanowi spójne, wieloaspektowe studium naukowe łączące zagadnienia inżynierii danych medycznych, projektowania architektur neuronowych, metod zwiększania efektywności uczenia przy ograniczonych zbiorach danych oraz interpretowalności modeli sztucznej inteligencji w kontekście klinicznym. Monografia wypełnia istotną lukę badawczą dotyczącą braku skutecznych, wiarygodnych i wyjaśnialnych narzędzi wspomagających diagnostykę rzadkich chorób siatkówki, takich jak retinopatia barwnikowa czy zwyrodnienie plamki żółtej. Głównym celem monografii jest opracowanie i kompleksowa ocena nowoczesnych metod głębokiego uczenia zdolnych do precyzyjnej identyfikacji rzadkich chorób siatkówki na podstawie obrazów okulistycznych. Autor dąży do zwiększenia skuteczności diagnostycznej w warunkach ograniczonej liczby danych, dużej zmienności fenotypowej oraz subtelnych zmian patologicznych. Cele szczegółowe pracy obejmują: (i) opracowanie zaawansowanych strategii augmentacji danych, w tym z użyciem generatywnych sieci przeciwstawnych, (ii) zaprojektowanie autorskich architektur konwolucyjnych sieci neuronowych oraz transformerów wizyjnych, (iii) redukcję złożoności obliczeniowej przy zachowaniu wysokiej skuteczności klasyfikacji, (iv) integrację metod zespołowych oraz (v) zapewnienie interpretowalności predykcji modeli w kontekście klinicznym. Monografia prezentuje szerokie spektrum metod obliczeniowych i eksperymentalnych. W pierwszej kolejności autor szczegółowo analizuje charakterystykę wybranych rzadkich chorób siatkówki oraz opisuje proces tworzenia i przygotowania dedykowanych zbiorów danych. Kluczowym elementem metodologicznym jest rozbudowany moduł augmentacji danych. Oprócz klasycznych technik przekształceń geometrycznych i fotometrycznych, autor proponuje zastosowanie Deep Convolutional Generative Adversarial Networks (DCGAN) do generowania syntetycznych obrazów siatkówki, co pozwala istotnie zredukować problem niedoboru danych i niezbalansowanych klas. W zakresie architektur identyfikacyjnych monografia obejmuje zarówno analizę modeli referencyjnych (ResNet, DenseNet, Inception), jak i autorskie rozwiązania. Szczególną uwagę poświęcono modelowi Deep CNN-GRU, który łączy ekstrakcję cech przestrzennych z modelowaniem zależności kontekstowych, konwolucyjnej sieci GRU U-Net do jednoczesnej segmentacji i klasyfikacji oraz dedykowanej Residual Attention Network, umożliwiającej selektywne skupienie uwagi na kluczowych obszarach patologicznych. Istotnym wkładem metodologicznym jest wprowadzenie konwolucji Kroneckera jako zamiennika klasycznych filtrów splotowych, co pozwala na ograniczenie liczby parametrów i zwiększenie efektywności uczenia przy małych zbiorach danych. Kolejna część pracy poświęcona jest transformerom wizyjnym, w tym autorskiej architekturze Deep Residual Vision Transformer, wzbogaconej o mechanizm resztkowej samo-uwagi. Autor analizuje proces tokenizacji obrazu, mechanizmy uwagi jedno- i wielogłowicowej oraz wpływ pozycjonowania tokenów na jakość klasyfikacji. Metody zespołowe (bagging, boosting, stacking, soft voting) zostały użyte do dalszej poprawy stabilności i dokładności klasyfikacji. Całość uzupełniają techniki wyjaśnialnych narzędzi, w szczególności Grad-CAM oraz SHAP, umożliwiające wizualną i ilościową interpretację decyzji modeli. Przeprowadzone eksperymenty wykazały, że zastosowanie zaawansowanej augmentacji danych z użyciem DCGAN prowadzi do istotnego wzrostu jakości klasyfikacji w porównaniu z klasycznymi metodami augmentacji. Autorskie architektury CNN-GRU, RAN oraz Deep Residual ViT osiągnęły bardzo wysokie wartości dokładności, czułości i miary F1-score, przekraczające 95%, przy jednoczesnym zachowaniu dobrej generalizacji. Konwolucja Kroneckera pozwoliła ograniczyć złożoność obliczeniową modeli bez utraty skuteczności, a w wielu przypadkach prowadziła do jej poprawy. Zastosowanie uczenia zespołowego dodatkowo zwiększyło stabilność klasyfikacji, szczególnie w warunkach niezbalansowanych klas. Analiza statystyczna z użyciem testu McNemary’ego potwierdziła istotność uzyskanych różnic względem modeli bazowych. Metody wyjaśnialności wykazały, że modele skupiają uwagę na obszarach siatkówki zgodnych z kliniczną wiedzą okulistyczną, co zwiększa zaufanie do proponowanych rozwiązań i ich potencjał aplikacyjny w praktyce klinicznej. Monografia dowodzi, że połączenie zaawansowanych technik augmentacji danych, nowoczesnych architektur głębokiego uczenia, mechanizmów uwagi, redukcji złożoności obliczeniowej oraz metod interpretowalnych stanowi skuteczną strategię w rozpoznawaniu rzadkich chorób siatkówki. Zaproponowane rozwiązania znacząco przewyższają klasyczne podejścia, oferując jednocześnie transparentność i potencjał klinicznego wdrożenia. Praca wnosi istotny wkład do rozwoju medycznej sztucznej inteligencji, wskazując kierunki dalszych badań, obejmujące m.in. adaptacyjne modele generatywne, hierarchiczne transformery wizyjne oraz integrację z wielomodalnymi danymi klinicznymi.
	The monograph covers the problem of automatic recognition of rare retinal diseases using advanced deep learning methods. The work constitutes a coherent, multi-faceted scientific study that integrates issues of medical data engineering, the design of neural network architectures, methods for improving learning efficiency under limited data availability, and the interpretability of artificial intelligence models in clinical context. The monograph fills a significant research gap related to the lack of effective, reliable and explainable tools supporting the diagnosis of rare ophthalmic diseases, such as retinitis pigmentosa and acquired vitelliform lesion. The primary objective of the monograph is to develop and comprehensively evaluate modern deep learning methods capable of accurate identification of rare retinal diseases based on ophthalmic images. The author seeks to enhance diagnostic performance under conditions of limited data availability, high phenotypic variability, and subtle pathological changes. The specific objectives include: (i) the development of advanced data augmentation strategies, including those based on generative adversarial networks; (ii) the design of original convolutional neural network architectures and vision transformers; (iii) the reduction of computational complexity while maintaining high classification performance; (iv) the integration of ensemble learning methods; and (v) ensuring the interpretability of model classification in clinical context. The monograph is based on a broad spectrum of computational and experimental methods. First, the author provides a detailed analysis of the characteristics of selected rare retinal diseases and describes the process of constructing and preparing dedicated datasets. A key methodological component is an extensive data augmentation module. In addition to classical geometric and photometric transformation techniques, the author proposes the use of Deep Convolutional Generative Adversarial Network (DCGAN) to generate synthetic retinal images, which significantly alleviates the problem of data scarcity and class imbalance. With regard to identification architectures, the monograph covers both an analysis of reference models (ResNet, DenseNet, Inception) and original solutions. Particular attention is paid to the Deep CNN–GRU model, which combines spatial feature extraction with contextual dependency modelling, the convolutional GRU U-Net for simultaneous segmentation and classification, and a dedicated Residual Attention Network that enables selective focus on key pathological regions. An important methodological contribution is the introduction of Kronecker convolution as a substitute for classical convolutional filters, allowing a reduction in the number of parameters and improved learning efficiency while dealing with limited datasets. The subsequent part of the study covers vision transformers, including the author’s Deep Residual Vision Transformer architecture, enhanced with a residual self-attention mechanism. The author analyses the image tokenisation process, single-head and multi-head attention mechanisms, and the impact of token positioning on classification quality. Ensemble methods (bagging, boosting, stacking, soft voting) are employed to further improve identification stability and accuracy. The study is complemented by explainable AI techniques, in particular Grad-CAM and SHAP, which enable visual and quantitative interpretation of model decisions. The conducted experiments demonstrate that the application of advanced data augmentation using DCGAN leads to a significant improvement in classification performance compared to classical augmentation methods. The proposed CNN–GRU, RAN and Deep Residual ViT architectures achieved high accuracy, sensitivity and F1-score, exceeding 95%, while maintaining good generalisation capability. Kronecker convolution reduced the computational complexity of the models without compromising performance and, in many cases, resulted in further improvements. The use of ensemble learning additionally increased classification stability, particularly under class imbalance conditions. Statistical analysis using McNemar’s test confirmed the significance of the observed improvements relative to baseline models. Explainability analyses showed that the models focus their attention on retinal regions consistent with established clinical knowledge, thereby increasing trust in the proposed solutions and their potential applicability in clinical practice. The monograph demonstrates that the combination of advanced data augmentation techniques, modern deep learning architectures, attention mechanisms, computational complexity reduction, and explainable methods constitutes an effective strategy for the recognition of rare retinal diseases. The proposed solutions significantly outperform classical approaches while offering transparency and clear potential for clinical deployment. The study makes an important contribution to the development of medical artificial intelligence and outlines directions for future research, including adaptive generative models, hierarchical vision transformers, and integration with multimodal clinical data.

Informacja o cookies

Deep Learning Approaches for Retinal Diseases Recognition : From Data Augmentation Towards Vision Transformers

Monografia