Informacja o cookies

Zgadzam się Nasza strona zapisuje niewielkie pliki tekstowe, nazywane ciasteczkami (ang. cookies) na Twoim urządzeniu w celu lepszego dostosowania treści oraz dla celów statystycznych. Możesz wyłączyć możliwość ich zapisu, zmieniając ustawienia Twojej przeglądarki. Korzystanie z naszej strony bez zmiany ustawień oznacza zgodę na przechowywanie cookies w Twoim urządzeniu.

Publikacje Pracowników Politechniki Lubelskiej

MNiSW
10
Lista B
Status:
Warianty tytułu:
Usage of natural language processing algorithms for Internet media content monitoring
Autorzy: Pańczyk Maciej, Smołka Jakub
Rok wydania: 2014
Wersja dokumentu: Elektroniczna
Język: polski
Numer czasopisma: 6
Strony: 8321 - 8330
Efekt badań statutowych NIE
Materiał konferencyjny: NIE
Publikacja OA: TAK
Licencja:
Sposób udostępnienia: Witryna wydawcy
Wersja tekstu: Ostateczna wersja opublikowana
Czas opublikowania: W momencie opublikowania
Abstrakty: polski | angielski
Od wielu lat wyszukiwarki internetowe pozwalają na wyszukiwanie treści polegające na wpisywaniu słów kluczowych. Komercyjne oprogramowanie, wykorzystywane przez firmy zajmujące się tzw. public relations oraz instytucje państwowe, pozwala na monitorowanie treści niezgodnych z prawem, np. rasistowskich itp. Tego typu zadania podobnie jak bardziej rozbudowane przewidywanie wpisywanego np. w telefonach komórkowych tekstu i rozpoznawanie pisma ręcznego lub komputerowe tłumaczenia tekstów stanowią typowe zastosowanie algorytmów przetwarzania języka naturalnego (ang. naturallanguageprocessing, NLP). W przypadku języka polskiego tego rodzaju zadania są jednak utrudnione. Język polski jest językiem fleksyjnym, w opozycji do tzw. języków pozycyjnych (np. j. angielski), których wyrazy przyjmują w zdaniu zawsze tę samą formę. Bogata fleksja języka polskiego ma niebagatelny wpływ na jego komputerowe przetwarzanie związane z koniecznością sprowadzania wielu form fleksyjnych tego samego wyrazu do formy podstawowej.Budowa algorytmu NLP, opartego o słownik zawierający wszystkie odmiany słów j. polskiego, wybór i dostosowanie niezbędnych narzędzi programowych pozwalających na zbudowanie oprogramowania ułatwiającego wyszukiwanie treści internetowych w języku polskim są tematem niniejszego artykułu.
All popular search engines allow us to look for requested keywords. Commercial software used by public relations companies and public institutions, allows to monitor illegal content, like for example racist content. Such tasks as well as more complicated like phones and hand held computers support predictive text and hand writing recognition or computer text translations represent a typical application of natural language processing algorithms (NLP). However, for the Polish language this kind of task is difficult. Polish language is an inflectional language, in opposition to the so-called positional language (eg. English), where the words in a sentence always stake the same form. Rich inflection of the Polish language has a substantial impact on its computer processing, associated with the need to bring in many inflected forms of the same word to its basic form. Construction of a natural language processing algorithm (NLP), based on a dictionary containing all the varieties of Polish words, selection and adaptation of the necessary software tools that allow to build software to facilitate search web content in Polish are the subject of this article.