O wszystkim, co wiąże się z technologią wyszukiwania.
Blog > Komentarze do wpisu

Świat poszufladkowany

Ilość informacji, która nas otacza jest przytłaczająca i co więcej, z każdą godziną jest jej coraz więcej. Różnorodność tematyki sprawia, że trudno wybrać to co interesujące - oddzielić ziarno od plew. Remedium może tu być automatyczna klasyfikacja treści. Postaram się opisać kilka scenariuszy porządkowania zasobów informacyjnych z wykorzystaniem technologii wyszukiwania.

Mózg człowieka, zbudowany na bazie genialnej sieci neuronowej jest zaprojektowany do klasyfikowania obiektów występujących w otoczeniu i obiektów abstrakcyjnych. Każde pojęcie jest odbiciem jakiejś idei, jest symbolem pewnego obiektu. I tak ludzie w swojej sieci neuronowej rozróżniają "czerwone krzesło" od "niebieskiego samochodu" kojarząc wyrazy z określonymi obiektami.

Jeżeli natomiast człowiek analizuje jakąś treść zapisaną gdziekolwiek, to jego mózg stara się wychwycić najistotniejsze elementy z tekstu, żeby móc powiedzieć o czym jest ten kawałek artykułu, e-mail czy notatka prasowa. Np. tekst "Meksyk – Zabójstwa amerykańskich turystów sprowadziły ciężkie czasy dla hoteli i restauracji przy meksykańskich plażach na południe od granicy w pobliżu San Diego

O czym jest ten krótki tekst? O zabójstwach turystów w Meksyku, o problemach dla obiektów gastronomicznych, o turystyce, o granicy USA-Meksyk w pobliżu San Diego ... w zależności, jak na to spojrzeć. Ja łatwo mogę sobie zaklasyfikować treść tego doniesienia prasowego do jakiejś kategorii, natomiast ni jestem w stanie przejrzeć setek tysięcy, milionów tego typu informacji. Jest to zadanie dla technologii.

Technologia wyszukiwania, naśladując nieco sposób, w jaki ludzie oceniają treść, jest w stanie wyodrębnić z każdego tekstu najistotniejsze informacje, jak: nazwy geograficzne, nazwy instytucji i organizacji, nazwy ludzi, daty, miary, skróty itd. Te wszystkie metadane przechowywane są razem z pełnymi informacjami źródłowymi. Co więcej, na bazie analizy częstotliwościowej silnik wyszukiwania potrafi wyodrębnić najczęściej powtarzające się wyrażenia i nadać im pewną wagę. Tworzy się w ten sposób tzw. wektor dokumentu, który jest swoistą metryką (podsumowaniem numerycznym) treści dokumentu.

Mając taki wektor dokumentu można już zastosować metody klasyfikacyjne powszechnie znane w technologiach informatycznych, a jest ich sporo. Wyodrębniłbym pewne grupy zastosowań opartych właśnie na algorytmach klasyfikacji dokumentów:

 1. Funkcjonalność typu znajdź podobny lub znajdź inne niż ten opiera się na pojęciu podobieństwa treści dokumentu, zdefiniowaną jako mierzalne podobieństwo (bliskość) wektorów dokumentu. W ten sposób łatwo ocenić czy jeden dokument w swej treści jest podobny do innego, co więcej można to zmierzyć i zastosować przy manipulacjach na wynikach wyszukiwania!
 2. Automatyczna klasteryzacja wyników wyszukiwania polega na grupowaniu podobnych rezultatów zapytania w grupy bliskie znaczeniowo. W ten sposób łatwo poruszać się po znacznej liczbie wyników wyszukiwania wybierając tematykę, która rzeczywiście nas interesuje.
 3. Zastosowanie automatycznej kategoryzacji według przyjętej taksonomii polega na automatycznej ocenie treści dokumentu i zaliczeniu jej do odpowiedniej kategorii taksonomicznej.
  (Taksonomia to hierarchiczna struktura pojęć z danej dziedziny wiedzy. Klasycznym przykładem taksonomii jest hierarchia gatunków ze świata roślin i zwierząt. Innym przykładem może też być np. zestawienie gatunków win, klasyfikacja farmaceutyków, rodzaje aktów prawnych, rodzaje pojazdów itd.)
  Kluczem do właściwej kategoryzacji jest tzw. tagowanie dokumentu, czyli przypisanie mu odpowiedniej kategorii z wybranej taksonomii. System sam poradzi sobie świetnie z tym zadaniem, jeżeli tylko dla każdej kategorii taksonomicznej będzie miał odpowiednią regułę. Dlatego sedno tego procesu polega na wygenerowaniu odpowiednich reguł klasyfikacyjnych. Generalnie proces ten odbywa się na dwa sposoby:
  1. Zastosowanie pewnego rodzaju struktury samouczącej, która na bazie wzorcowych zestawów treningowych, właściwie sklasyfikowanych  jest w stanie wygenerować odpowiednie reguły. Skuteczność wytworzonych reguł sprawdza się na odpowiednim zestawie testowym. Trudność tej metody polega głównie na przygotowaniu odpowiednich zestawów danych do nauki i do testowania. Powinny być do dane jak najbardziej zbliżone, do danych produkcyjnych.
  2. Ręczne tworzenie reguł dla każdej z kategorii taksonomii, wykorzystując nie tylko wektor dokumentu, ale wszystkie dostępne meta dane. Tutaj też potrzebny jest dobry zestaw testowy, bo praca nad regułami, to ciąg prób i poprawek. Zaletą tego podejścia jest całkowita kontrola nad regułami i duża ekspresyjność.
 4. Jeżeli już poradziliśmy sobie z zadaniem klasyfikacji dokumentu w oparciu o taksonomie, to można pójść o krok dalej i przejść do zastosowania klasyfikacji z wykorzystaniem ontologii, którą można uważać za poszerzenie taksonomii o inne rodzaje relacji. Tak np. taksonomię win i taksonomię potraw można połączyć i zbudować ontologię opisującą wzajemne zależności pomiędzy potrawami i winami. W tym celu należy wprowadzić dodatkową relację pomiędzy kategoriami obydwu taksonomii.
  Z punktu widzenia silnika wyszukiwania, sprawa nie komplikuje się wcale, ponieważ sedno tkwi cały czas w klasyfikacji w oparciu o wskazane taksonomię. Całą logika nawigacji pomiędzy pojęciami zawarta jest w opisie ontologii, zewnętrznym w stosunku do silnika wyszukiwania. W ten sposób można stworzyć całkiem zaawansowany system, umożliwiający dynamiczne odkrywanie zaawansowanej wiedzy dziedzinowej ukrytej w tysiącach dokumentów.

Jak to wszystko odnieść do naszego krótkiej notatki prasowej? Ano, korzystając z klasyfikacji i kategoryzacji można zaproponować czytelnikowi tej konkretnej notatki:

 • Zobacz inne informacje o Meksyku
 • Przejdź do danych statystycznych na temat przestępczości w Ameryce/USA/Meksyku/San Diego
 • Zobacz ranking najlepszych restauracji plażowych w północnym Meksyku
 • Atrakcje San Diego i okolic
 • Znane postacie na plażach w San Diego

Czyż nie da się na tym zarobić?

wtorek, 12 stycznia 2010, zenonik90

Polecane wpisy

TrackBack
TrackBack w tym blogu jest moderowany. TrackBack URL do wpisu:
  Paweł Wróblewski

  Jeśli podoba Ci się publikowana treść, rozważ proszę dofinansowanie rozwoju tego bloga.

  Follow zenonik90 on Twitter
góra | "Proście, a będzie wam dane; szukajcie, a znajdziecie; kołaczcie, a otworzą wam." Mt 7,7