HOME > Programmatuur > Internet > Zoeken op het web > Zoeksystemen |
|
Zoeken doe je
stapsgewijs, vind je niets op de ene manier dan neem je een volgende, iets moeilijkere stap.
|
Wil je de website van
de Encyclopaedia Britannica bezoeken maar ken je het adres niet, dan kan een
zoekrobot je helpen. Natuurlijk kun je ook zonder zoekmachines trachten je doel
te bereiken. Vele bedrijven of instellingen hebben voor de hand liggende URL's.
Enkele voorbeelden: www.britannica.com,
www.pelckmans.be,
www.cnn.com.
Wel heb je
enige kennis van de samenstelling van URL's nodig:
de meeste instellingen (firma’s, verenigingen, e. d.) hebben een webpagina met
een adres dat er als volgt uitziet:
http://www.instelling.topdomein/
Uitleg:
http://www: | geeft aan dat dit een webpagina is; |
instelling: | naam van de instelling (of een afkorting van de naam van de instelling); |
topdomeinnaam: | naast het domein com zijn de landcodes de meest
voorkomende topdomeinen Landcodes:twee letters bijv. topdomeinen be (België), nl (Nederland), uk (United Kingdom), fr (France), ... Voor meer informatie kun je ook terecht op de volgende website: http://www.surfnet.nl/innovatie/mimest/achtergrond/domein.html |
Er zijn drie soorten algemene zoeksystemen:
Welke van de drie je gebruikt hangt af van het type zoekopdracht en van de ervaring die je hebt met gecombineerde zoekopdrachten in zoekrobots.
Samengevat:
Een zoekmachine bestaat uit drie onderdelen:
De robot
|
Zoekrobots zijn programma's die over het Web reizen en webpagina’s of woorden uit die pagina’s voor de zoekmachine (index) verzamelen. De robot - ook worm, spider, scooter, wanderer, crawler of intelligent agent genoemd - volgt ook de links op webpagina’s om automatisch andere webpagina’s te ontdekken. Omdat webpagina's regelmatig veranderen, komt de robot ook regelmatig bij reeds geïndexeerde pagina's terug en neemt eventuele veranderingen over. Hoeveel tijd tussen de bezoeken van de robot zit verschilt per zoekmachine. Pagina's die volledig op zichzelf staan, dus geen links naar andere sites hebben, worden door zo’n zoekprogramma niet gevonden. Een oplossing hiervoor is het aanmelden van de site bij een zoekmachine, zodat deze toch in de gegevensbank wordt opgenomen. Google, AltaVista en HotBot zijn de meest bekende internationale robots. |
De gegevensbank
Alle pagina's die door de robot zijn gevonden worden gestockeerd. Bij de grootste zoekmachines bevat de gegevensbank honderden miljoenen pagina's. Zoeken met een zoekmachine is dus zoeken in een gegevensbank. Je zoekt niet op het Web zelf! Is een bepaalde pagina niet opgeslagen in de gegevensbank, dan zul je ze met die zoekmachine ook niet vinden. Elke zoekmachine heeft haar eigen gegevensbank. Uiteraard overlappen de verschillende zoekmachines mekaar, maar ook heeft elke machine haar unieke pagina's. Wil je een groter deel van het Web doorzoeken, gebruik dan meerdere zoekmachines. |
De interface met zoekmechanisme
De zoekinterface laat gebruikers zoeken in de gegevensbank van de zoekmachine. Je voert enkele trefwoorden in en het programma doorzoekt zijn bibliotheek. De robot zal dan een lijst van URL's (samen met de titel, de grootte, de
eerste woorden, ... van de webpagina's) tonen. Van daaruit kun je dan verder navigeren. |
De zoekdienst is geprogrammeerd om naar documenten te zoeken die de exacte woorden bevatten die je invulde in het gegevensopvraaghokje.
Naast een basiszoekfunctie (simple search) heeft een zoekmachine doorgaans ook een functie “geavanceerd zoeken” (Advanced Search). Hier kun je gebruik maken van enkele zoektechnieken die je in staat stellen zeer gericht te zoeken. Zo kun je bijvoorbeeld de relaties tussen zoektermen aangeven met behulp van Booleaanse operatoren, of zoeken op woorden in bepaalde delen van pagina's, zoals de URL of de titel.
Elke zoekmachine heeft daarvoor haar eigen rekenmethode (algoritme), maar doorgaans wordt gekeken naar de volgende factoren:
De meeste zoekmachines houden rekening met de bovenstaande factoren. Vaak kennen ze echter net iets andere waarderingen aan een factor toe, waardoor er verschillen in de ranking per zoekmachine ontstaan. Dit verklaart mede waarom exact dezelfde site bij verschillende zoekmachines op een andere plaats in de lijst met treffers kan staan.
Googlefilmpje |
Google werd in 1998 opgericht door twee studenten van de Amerikaanse Stanford University. Ondertussen is het een van de populairste en grootste zoekmachines. De makers zeggen dat het ruim een miljard webpagina's in zijn database heeft (2002).
Google is afgeleid van het woord 'googol', de term die wiskundige Edward Kasner in 1938 bedacht voor een 1 gevolgd door honderd nullen.
Het eerste wat bij Google opvalt is de aangenaam sobere, bijna lege interface.
Google staat bekend om zijn snelheid en de hoge mate van relevantie van de gevonden sites. De techniek die het gebruikt voor het bepalen van relevantie heet PageRank. Hierbij wordt, naast de trefwoorden natuurlijk, gekeken naar het aantal links dat naar een bepaalde pagina gaat. Een pagina waar veel links heen leiden krijgt een hogere waarde. Ook wordt meegenomen welke sites naar een pagina linken. Zijn dat sites die zelf een hogere waarde hebben, dan krijgt een pagina waar ze naar linken ook weer een hogere waarde. Ingewikkeld, maar het werkt goed.