O wszystkim, co wiąże się z technologią wyszukiwania.
Blog > Komentarze do wpisu

Precyzja kontra kompletność, czyli jak odnaleźć igłę w stogu siana?

Próbując określić na dość wysokim poziomie skuteczność wyszukiwania, należałoby się odwołać do pewnych pojęć, które mocno już zakorzeniły się w świecie wyszukiwania informacji. Dla mnie osobiście najważniejsze są trzy z nich: trafność, kompletność, precyzja.

Trafność (z ang. relevancy) – Termin ten właściwie oznacza jak bardzo element danych (np. dokument, strona internetowa, email) zwrócony jako wynik wyszukiwania odpowiada naszym kryteriom. Jeżeli bierzemy pod uwagę zwykłe wyszukiwanie po słowach kluczowych w tekście, to sprawa wydaje się być w miarę prosta. Dla zapytania „Paweł Wróblewski” dostanę wyniki, które zawierają po prostu dwa słowa występujące po sobie „Paweł Wróblewski”.  Ale czy rzeczywiście jest to takie proste? Przecież chodzi nam o odnalezienie informacji o pewnej konkretnej osobie, która może być w tekście odmieniania przez wszystkie przypadki, może posiadać też pewne przezwiska, pseudonimy czy przydomki i zawierać mnóstwo adekwatnych informacji na interesujący nas temat. Dotykamy tu już bardzo skomplikowanego problemu lingwistycznego znaczenia pojęć, czyli semantyki tekstu. Poza tym dany dokument może być bardziej lub mniej trafny w zależności od tego, czy np. „Paweł Wróblewski” jest tematem głównym, czy tylko pojedynczym wspomnieniem.

Nie chcąc w tym poście zbytnio wnikać w te zagadnienia (obiecuję to zrobić przy innej okazji), pokusiłbym się o specyficzną definicję adekwatności. Trafny jest ten wynik wyszukiwania, który zgodny jest z intencją użytkownika poszukującego informacji. Można zatem dojść do wniosku, że pojęcie to jest mocno subiektywne. I rzeczywiście tak jest! Ale wcale nie wyklucza to możliwości uśredniania pewnych oczekiwań i odpowiedzi na nie w formie powszechnie adekwatnych wyników. Może dlatego walka o jak największą trafność wyników wyszukiwania jest najważniejszym i nigdy nie kończącym się zadaniem wdrażania technologii wyszukiwania.

Kompletność –  mówi nam, jak wiele adekwatnych danych z przeszukiwanego zbioru znalazło się w naszym zbiorze wynikowym. Zatem idealna (patrz utopijna) kompletność na poziomie 100% oznacza, że dokładnie wszystkie trafne informacje z przeszukiwanego przez nas zbioru znalazły się na liście wyników wyszukiwania.

Precyzja – mówi nam, jak wiele elementów z naszej całej listy wyników jest trafnych dla nas. Zatem idealna (patrz utopijna) precyzja na poziomie 100% oznacza, że dokładnie wszystkie wyniki wyszukiwania są adekwatne, czyli nie ma tam nic na temat, który nas nie interesował. Po prostu nie ma żadnych wyników – śmieci.

Łatwo zauważyć, że zarówno definicje precyzji, jak i kompletności odwołują się do pojęcia trafności, ze wszystkimi konsekwencjami komplikacji całego zagadnienia. Natomiast relacja pomiędzy tymi dwoma ostatnimi terminami może zilustrować następujący diagram.

Adekwatność, Kompletność, Precyzja

Walka o jakość wyszukiwania polega na tym, żeby jak najbardziej zwiększyć część wspólną przedstawionych zbiorów, tak, żeby uzyskać 100% kompletności i 100% precyzji. Tutaj niestety pojawiają się znowu schody, bo często zdarza się tak, że poprawiając kompletność obniżamy jednocześnie precyzję. Prosty przykład:

  • Potrzebujemy informacji o kaloryferach.
  • Żeby uwzględnić dane zawierające także słowo-synonim „grzejnik”, to dodajemy go także do zapytania.
  • Zwiększyliśmy tym samym kompletność, bo obejmujemy dane o grzejnikach i kaloryferach, ale straciliśmy nieco na precyzji, bo można się spodziewać dokumentów o grzejnikach nie będących kaloryferami np. grzejniki elektryczne typu FAREL :-).

Istnieje wiele sposobów na poprawę kompletności i precyzji, ale o tym kiedy indziej. Tym samym wszystkim życzę jedynie kompletnych i precyzyjnych wyników na 101%

poniedziałek, 07 grudnia 2009, zenonik90

Polecane wpisy

TrackBack
TrackBack w tym blogu jest moderowany. TrackBack URL do wpisu:
Komentarze
2009/12/16 17:23:49
Zmieniłem termin "adekwatność" na "trafność", bo zauważyłem, że wszyscy jednak używają tego drugiego. Jednak będę stosował oba terminy wymiennie, bo wydaje mi się, że "adekwatność" jest tu czasem bardziej precyzyjna.
    Paweł Wróblewski

    Jeśli podoba Ci się publikowana treść, rozważ proszę dofinansowanie rozwoju tego bloga.

    Follow zenonik90 on Twitter
góra | "Proście, a będzie wam dane; szukajcie, a znajdziecie; kołaczcie, a otworzą wam." Mt 7,7