The large data sample partitioning for diagnosis and pattern recognition
Artykuł w czasopiśmie
MNiSW
5
Lista B
Status: | |
Warianty tytułu: |
Partycjonowanie dużej próby danych do diagnozowania i rozpoznawania wzorców
|
Autorzy: | Subbotin S., Gromaszek Konrad |
Rok wydania: | 2013 |
Wersja dokumentu: | Drukowana |
Język: | angielski |
Numer czasopisma: | 8 |
Strony: | 17 - 20 |
Bazy: | BazTech |
Efekt badań statutowych | NIE |
Materiał konferencyjny: | NIE |
Publikacja OA: | NIE |
Abstrakty: | polski | angielski |
Artykuł przedstawia rozwiązanie problemu automatycznego partycjonowania oryginalnej próby danych na próbę trenującą i testową, proponując nową metodę ich tworzenia. Metoda ta zachowuje w wygenerowanych podzbiorach najważniejsze właściwości topologiczne próby oryginalnej, nie wymaga ładowania jej w całości do pamięci operacyjnej komputera jak również wielokrotnego przeszukiwania. Pozwala to na znaczące zmniejszenie rozmiaru próby jak również znaczące zmniejszenie wymagań sprzętowych komputera. Proponowana metoda wykorzystuje analizę skupień dla próby z późniejszym określeniem wzorców zlokalizowanych na granicach klas. Metoda automatycznie określa liczbę oraz współrzędne środków skupień. Jednocześnie zapewnia ona szeregowe przetwarzanie wzorców bez zachowywania odległości pomiędzy wszystkimi wzorcami. Wspomniana metoda dokonuje transformacji zbioru wielowymiarowych współrzędnych do jednowymiarowego, który jest ponadto dyskretyzowany w celu zwiększenia reprezentatywności uzyskanych w ten sposób danych. Określono estymatory złożoności czasowej i przestrzennej zaproponowanej metody. Pozwalają one na określenie możliwości rozwiązania danego problemu oraz oszacować wymagania odnośnie zasobów komputera. Ponadto stworzono oprogramowanie, w którym zaimplementowano opisywaną metodę. Przeprowadzono szereg badań symulacyjnych, które potwierdziły przydatności tej metody w praktyce. | |
The article presents solving a problem of automation of partitioning of the original sample to the training and test samples to create diagnostic and recognizing models by precedents. We propose a new method of training and test sample forming. It preserves in a generated sub-sample the most important topological properties of the original sample and did not even needs to load of the original sample into computer memory as well as multiple passes over the original sample. This allows to significantly reduce the sample size, and to significantly decrease the requirements to computer resources. The proposed method is based on the cluster analysis of the sample with subsequent determination of exemplars located on the borders of the classes. The method automatically determines the number and coordinates of cluster centers. At the same time it provides a sequential exemplar processing, order not to keep the distance between all exemplars. The method also performs transformation of the multi-dimensional coordinate set to the one-dimensional, which is also discretized to improve the data generalization properties. The estimates of temporal and spatial complexities of the proposed method were determined. They allow to determine the possibility of a particular problem solving and to estimate the requirements to computer resources. The software that implements the proposed method of sampling has been developed. The experiments were conducted to study the proposed method at the real problem solution. The results of experiments allow to recommend the proposed method for use in practice |