O wszystkim, co wiąże się z technologią wyszukiwania.
Blog > Komentarze do wpisu

To pokazać, tamto ukryć

Zabezpieczenia silników wyszukiwania są tematem, o którym mówi się rzadko. Jednak od czasu do czasu, to zagadnienie z drugiego planu przesuwa się na pierwsze strony gazet. Tak stało się w przypadku wyszukiwarki Google i sprawy chińskiej. Jednak jest to dobry pretekst, żeby opowiedzieć o bezpieczeństwie technologii wyszukiwania.

Zagadnienie bezpieczeństwa w silnikach wyszukiwania na pewno nie jest widoczne w materiałach marketingowych, zamiast tego podkreśla się wiele interesujących aspektów związanych z wyszukiwaniem, odkrywaniem wiedzy - tego typu handlowa gadka. Dopiero w konkretnych rozmowach na temat potencjalnego projektu i wdrożenia, ten aspekt pojawia się w całej okazałości.

Moim zdaniem tematykę zabezpieczeń silnika wyszukiwania należy podzielić na wyszukiwanie w Internecie i przedsiębiorstwie, ponieważ są to dwa tylko z pozoru podobne zagadnienia.

Internet search. Tutaj sprawa wydaje się z pozoru prosta, bo mamy przecież do czynienia z całkowicie publicznymi danymi – każdy może szukać to, czego chce. Czy rzeczywiście? Okazuje się, że wyszukiwarki są w stanie skutecznie ukryć treści, których z różnych powodów nie chcą udostępnić użytkownikom. Powody mogą być różne:

  • Pierwszoplanowa sprawa, także moralnie kontrowersyjna, dotyczy ukrywania (cenzurowania) treści, nietolerowanych przez reżim panujący w danym regionie. Rynek chiński, setki milionów użytkowników Internetu jest tak łakomym kąskiem, że wiele firm nie jest w stanie (lub nie ma odwagi) zrezygnować i godzi się na wprowadzenie filtrowania treści zgodnie z przyjętą doktryną polityczno-światopoglądową. Tutaj Google wchodzący właśnie w konfrontację z Państwem Środka (po dość długim okresie permisywizmu) jest wart podkreślenia. Czy jest to przebudzenie moralne, czy zimna kalkulacja? Czas pokaże.
  • Filtrowanie treści powszechnie uważanych za obraźliwe i szkodliwe społecznie. Dla przykładu w Arabii Saudyjskiej podobno jest ustawowy nakaz wyłączania możliwości przeszukiwania i wchodzenia na strony pornograficzne. Każdy dostawca Internetu musi stosować to prawo pod bardzo surowymi karami.
  • Kontrola rodzicielska – filtrowane są wyniki wyszukiwania pod kątem treści pornograficznych, pedofilskich i innych różnych zboczeń, mogących wyrządzić szkodę dzieciom. Co ciekawe znam, także i dorosłych, którzy sami włączają sobie tego typu zabezpieczenia, żeby chociażby przypadkiem nie zaśmiecić sobie głowy obrazami i treściami, których się nie chce tam mieć. Ja sam w ustawieniach Google mam włączony tryb filtru rodzinnego: Użyj ścisłego filtrowania (Filtruj wulgarny tekst i wulgarne zdjęcia) – tak na wszelki wypadek, żeby rączka się „nie omskła”.

Jak widzimy, tutaj mamy do czynienia z zagadnieniami mocno ideologicznymi. Ale właśnie to jest ten z przypadków, gdzie zastosowanie technologii niejako przecina się z różnymi światopoglądami i musi zająć jakieś stanowisko. To zawsze budzi dyskusje i kontrowersje.

Mechanizmy technologiczne wspierające filtrowanie niepożądanej treści działają według prostego schematu – po prostu z wyników wyszukiwania, tuż przed wyświetleniem są filtrowane pod kątem określonych kryteriów. Natomiast same te kryteria proste nie są, bo jak określić, że coś jest obraźliwe? Bez rzetelnej automatycznej analizy treści niewiele się da, a to już jest miejsce do zastosowania zaawansowanej lingwistyki. Ale o tym było już gdzie indziej (Myśleć po polsku) …

Enterprise Search. Tutaj już znacznie mniej ideologii i więcej technologii. Sprawa jest o tyle prosta, że celem jest synchronizacja indeksu wyszukiwania ze źródłami danych. Chodzi o to, żeby zabezpieczenia w bazach danych, plikach, systemach CRM, ERP, CMS były przeniesione do silnika wyszukiwania. Zatem, użytkownik przeszukujący wspólnie te różnorodne zasoby widzi tylko to, do czego ma dostęp w oryginalnym systemie. Jest to całkowicie realizowalna koncepcja i zwykle polega na zintegrowaniu silnika wyszukiwania z jakimś systemem korporacyjnego katalogowania użytkowników i ich praw dostępu typu LDAP (np. Microsoft Active Directory).

Jednak często wyzwaniem jest utrzymywanie aktualnej synchronizacji. Na przykład, jeżeli dany użytkownik straci prawa dostępu do konkretnego katalogu w danym systemie zarządzania dokumentami, to chciałoby się, żeby on od razu nie mógł także ich odnajdywać. Procesy synchronizujące zareagują na tę zmianę zawsze z pewnym opóźnieniem i przekażą do indeksu informację o nowych prawach dostępu po pewnym (konfigurowalnym) czasie. Natomiast jeżeli chciałoby się ze względu na powagę przetwarzanych danych mieć 100% synchronizacji, to wtedy stosuje się specjalne monitory. Ich zadaniem jest dodatkowe sprawdzenie wyników wyszukiwania, tuż prze wyświetleniem na liście wyszukiwania (tzw. last second check), czy rzeczywiście dany użytkownik ma prawo do obejrzenia wszystkich wyników. Niektóre z nich w ostatniej chwili mogą zostać odfiltrowane. Oczywiście ceną, jaką płaci się za takie sprawdzenie jest obniżona szybkość odpowiedzi systemu.

Czasem spotykam się z pewnym specyficznym zarzutem dotyczącym bezpieczeństwa wyszukiwania w przedsiębiorstwie. Otóż niektórzy uważają, że fakt iż silniki wyszukiwania „wyciągają” dane z zewnętrznych repozytoriów do indeksu wyszukiwania jest naruszeniem zasad zabezpieczeń, bo oto dane z dobrze zabezpieczonych systemów są kopiowane na zewnątrz do bliżej nieokreślonych i nie wiadomo jak zabezpieczonych struktur. Tutaj będę brutalny i powiem, że tego typu postawa jest wynikiem ignorancji w stosunku do tego, czym jest silnik wyszukiwania i jak jest zbudowany indeks. Otóż w każdym porządnym rozwiązaniu dane są tak poszatkowane, że nie sposób się do nich dostać inaczej, jak tylko przez silnik wyszukiwania, a ten z kolei udostępnia mechanizmy zabezpieczające przed nieuprawnionym dostępem. Może kiedyś warto poświęcić nieco czasu na opis budowy indeksu wyszukiwania? Ale nie teraz. Poza tym zawsze indeks jest zapisany binarnie, jak zatem się do niego dobrać? Nijak.

Zatem, technologia wyszukiwania dostarcza wiele możliwości zabezpieczenia, poprzez pokazywanie jedynie tego, co można i ukrywanie tego, co trzeba. Jest to bez wątpienia silne narzędzie, która jak to zwykle bywa może być użyte w bardziej lub mniej prawy sposób. Kto wię, może nawet jest to jakaś forma władzy … ?

piątek, 15 stycznia 2010, zenonik90

Polecane wpisy

TrackBack
TrackBack w tym blogu jest moderowany. TrackBack URL do wpisu:
    Paweł Wróblewski

    Jeśli podoba Ci się publikowana treść, rozważ proszę dofinansowanie rozwoju tego bloga.

    Follow zenonik90 on Twitter
góra | "Proście, a będzie wam dane; szukajcie, a znajdziecie; kołaczcie, a otworzą wam." Mt 7,7