Inleiding: Zoeken op het net

HOME > Programmatuur > Internet > Zoeken op het web > Zoeksystemen

Een zoeksysteem kiezen

Zoeken doe je stapsgewijs, vind je niets op de ene manier dan neem je een volgende, iets moeilijkere stap.

Het adres van de website trachten te raden

Maak gebruik van zoekmachines (robots), registers (directory) of metazoeksystemen.

Gespecialiseerde zoeksystemen

Een expert zoeken op het web.

Het adres van de website raden

Wil je de website van de Encyclopaedia Britannica bezoeken maar ken je het adres niet, dan kan een zoekrobot je helpen. Natuurlijk kun je ook zonder zoekmachines trachten je doel te bereiken. Vele bedrijven of instellingen hebben voor de hand liggende URL's. Enkele voorbeelden: www.britannica.com, www.pelckmans.be, www.cnn.com.
Wel heb je enige kennis van de samenstelling van URL's nodig:
de meeste instellingen (firma’s, verenigingen, e. d.) hebben een webpagina met een adres dat er als volgt uitziet:

http://www.instelling.topdomein/

Uitleg:

http://www:	geeft aan dat dit een webpagina is;
instelling:	naam van de instelling (of een afkorting van de naam van de instelling);
topdomeinnaam:	naast het domein com zijn de landcodes de meest voorkomende topdomeinen Landcodes:twee letters bijv. topdomeinen be (België), nl (Nederland), uk (United Kingdom), fr (France), ... Voor meer informatie kun je ook terecht op de volgende website: http://www.surfnet.nl/innovatie/mimest/achtergrond/domein.html

Algemene zoeksystemen

Er zijn drie soorten algemene zoeksystemen:

zoekmachines (robots);
referentielijsten of registers (directories);
metazoeksystemen.

Welke van de drie je gebruikt hangt af van het type zoekopdracht en van de ervaring die je hebt met gecombineerde zoekopdrachten in zoekrobots.

Samengevat:

Een register of referentielijst gebruik je voor vrij algemene informatie over 'populaire' onderwerpen. Zoek je bijvoorbeeld informatie over het broeikaseffect of doping in de sport, dan is een register het aangewezen gereedschap.
Voor een gespecialiseerde zoekopdracht met slechts één trefwoord, en waar je niet veel treffers verwacht, kun je een metazoeksysteem gebruiken.
Zoekmachines (search engines) zijn het best geschikt voor zeer specifieke vragen, vooral indien de zoekopdracht bestaat uit meerdere trefwoorden. Zoek je de vertrektijdstippen van een trein of een vliegtuig, gebruik dan een zoekmachine. Je kunt je zelfs afvragen of je bij deze vraag internet moet gebruiken.

Hoe werkt een zoekmachine?

Een zoekmachine bestaat uit drie onderdelen:

de zoekrobot;
een gegevensbank;
een interface met een zoekmechanisme.

De robot

Zoekrobots zijn programma's die over het Web reizen en webpagina’s of woorden uit die pagina’s voor de zoekmachine (index) verzamelen. De robot - ook worm, spider, scooter, wanderer, crawler of intelligent agent genoemd - volgt ook de links op webpagina’s om automatisch andere webpagina’s te ontdekken. Omdat webpagina's regelmatig veranderen, komt de robot ook regelmatig bij reeds geïndexeerde pagina's terug en neemt eventuele veranderingen over. Hoeveel tijd tussen de bezoeken van de robot zit verschilt per zoekmachine.

Pagina's die volledig op zichzelf staan, dus geen links naar andere sites hebben, worden door zo’n zoekprogramma niet gevonden. Een oplossing hiervoor is het aanmelden van de site bij een zoekmachine, zodat deze toch in de gegevensbank wordt opgenomen.

Google, AltaVista en HotBot zijn de meest bekende internationale robots.

De gegevensbank

Alle pagina's die door de robot zijn gevonden worden gestockeerd. Bij de grootste zoekmachines bevat de gegevensbank honderden miljoenen pagina's.

Zoeken met een zoekmachine is dus zoeken in een gegevensbank. Je zoekt niet op het Web zelf!

Is een bepaalde pagina niet opgeslagen in de gegevensbank, dan zul je ze met die zoekmachine ook niet vinden.

Elke zoekmachine heeft haar eigen gegevensbank. Uiteraard overlappen de verschillende zoekmachines mekaar, maar ook heeft elke machine haar unieke pagina's. Wil je een groter deel van het Web doorzoeken, gebruik dan meerdere zoekmachines.

De interface met zoekmechanisme

De zoekinterface laat gebruikers zoeken in de gegevensbank van de zoekmachine. Je voert enkele trefwoorden in en het programma doorzoekt zijn bibliotheek.

De robot zal dan een lijst van URL's (samen met de titel, de grootte, de eerste woorden, ... van de webpagina's) tonen. Van daaruit kun je dan verder navigeren.

De zoekdienst is geprogrammeerd om naar documenten te zoeken die de exacte woorden bevatten die je invulde in het gegevensopvraaghokje.

Naast een basiszoekfunctie (simple search) heeft een zoekmachine doorgaans ook een functie “geavanceerd zoeken” (Advanced Search). Hier kun je gebruik maken van enkele zoektechnieken die je in staat stellen zeer gericht te zoeken. Zo kun je bijvoorbeeld de relaties tussen zoektermen aangeven met behulp van Booleaanse operatoren, of zoeken op woorden in bepaalde delen van pagina's, zoals de URL of de titel.

Hoe bepaalt een zoekmachine welke pagina's relevant zijn voor jouw zoekvraag?

Elke zoekmachine heeft daarvoor haar eigen rekenmethode (algoritme), maar doorgaans wordt gekeken naar de volgende factoren:

hoe vaak het trefwoord op een pagina voorkomt;
waar in de pagina het trefwoord voorkomt (in de titel, in de URL of bij het begin van de pagina duidt op meer relevantie);
als je zoekt op meer dan één trefwoord, wordt ook gekeken of die trefwoorden dicht bij mekaar voorkomen (nabijheid duidt op meer relevantie);
soms wordt ook gekeken naar het aantal links dat naar een bepaalde pagina gaat (hoe meer links, hoe belangrijker de site vermoedelijk is).

De meeste zoekmachines houden rekening met de bovenstaande factoren. Vaak kennen ze echter net iets andere waarderingen aan een factor toe, waardoor er verschillen in de ranking per zoekmachine ontstaan. Dit verklaart mede waarom exact dezelfde site bij verschillende zoekmachines op een andere plaats in de lijst met treffers kan staan.

Googlefilmpje

Google werd in 1998 opgericht door twee studenten van de Amerikaanse Stanford University. Ondertussen is het een van de populairste en grootste zoekmachines. De makers zeggen dat het ruim een miljard webpagina's in zijn database heeft (2002).

Google is afgeleid van het woord 'googol', de term die wiskundige Edward Kasner in 1938 bedacht voor een 1 gevolgd door honderd nullen.

Het eerste wat bij Google opvalt is de aangenaam sobere, bijna lege interface.

Google staat bekend om zijn snelheid en de hoge mate van relevantie van de gevonden sites. De techniek die het gebruikt voor het bepalen van relevantie heet PageRank. Hierbij wordt, naast de trefwoorden natuurlijk, gekeken naar het aantal links dat naar een bepaalde pagina gaat. Een pagina waar veel links heen leiden krijgt een hogere waarde. Ook wordt meegenomen welke sites naar een pagina linken. Zijn dat sites die zelf een hogere waarde hebben, dan krijgt een pagina waar ze naar linken ook weer een hogere waarde. Ingewikkeld, maar het werkt goed.