Zgadzam się
Nasza strona zapisuje niewielkie pliki tekstowe, nazywane ciasteczkami (ang. cookies) na Twoim urządzeniu w celu lepszego dostosowania treści oraz dla celów statystycznych. Możesz wyłączyć możliwość ich zapisu, zmieniając ustawienia Twojej przeglądarki. Korzystanie z naszej strony bez zmiany ustawień oznacza zgodę na przechowywanie cookies w Twoim urządzeniu.
This paper presents an approach to compare and classify books written in the Polish language by comparing their lexis fields. Books can be classified by their features, such as literature type, literary genre, style, author, etc. Using a preassembled dictionary and Jaccard index, we managed to prove a compact hypothesis concerning similar books. Further analysis with the PAM clustering algorithm presented a lexical connection between books of the same type or author. Overall static behaviour of similarities of any particular field on one side and some anomalous tendencies in other cases suggest that recognition of other features is possible. The method presented in this article allows drawing conclusions regarding the connection between any arbitrary books based solely on their vocabulary.
Artykuł prezentuje metodę porównania i klasyfikacji książek napisanych w języku
polskim na podstawie ich leksyki.
Książki można dzielić,
korzystając z ich
cech, np. rodzaju literatury, gatunku literackiego, stylu, autora
itp. Korzystając
ze skompilowanego słownika i in
deksu Jaccarda,
udowodniona została hipoteza
dotycząca podobieństwa
książek
rozpatrywanego pod kątem
ich leksyki
. Kolejna analiza za pomocą algorytmu klastrowego PAM wskazuje na związek leksykalny
po
między książkami jednego
rodzaju literatury lub autora.
Analiza wartości
współczynników
poszczególnych
obszarów
z jednej strony i anomalia w zachowaniu
w niektórych przypadkach
sugeruje,
że wyodrębnienie kolejnych
cech
jest możliwe. Metoda przedstawiona w tym artykule pozwala wyciągać wnioski
o relacjach między książkami,
korzystając wyłącznie z ich słownictwa.
udowodniona została hipoteza
dotycząca podobieństwa
książek
rozpatrywanego pod kątem
ich leksyki
. Kolejna analiza za pomocą algorytmu klastrowego PAM wskazuje na związek leksykalny
po
między książkami jednego
rodzaju literatury lub autora.
Analiza wartości
współczynników
poszczególnych
obszarów
z jednej strony i anomalia w zachowaniu
w niektórych przypadkach
sugeruje,
że wyodrębnienie kolejnych
cech
jest możliwe. Metoda przedstawiona w tym artykule pozwala wyciągać wnioski
o relacjach między książkami,
korzystając wyłącznie z ich słownictwa.