Richard Rogers 1 jan 1998

Experimenteren met zoekmachines

Hoe ordinaire webinformatie tot kennis kan worden gemaakt.

Klimaatverandering is wereldwijd: ze verschijnt overal en nergens tegelijk. Van de informatievoorziening over deze ecologische crisis kan hetzelfde gezegd worden: op het World Wide Web duiken wetenschappelijke feiten op uit het niets, hun bronnen zijn nauwelijks lokaliseerbaar. Een virtuele geografie van Global Climate Change op het web biedt opheldering.

Lange tijd is het zo geweest dat wetenschappers, geleerden en kunstenaars een reputatie trachtten op te bouwen door elders te publiceren of exposeren. Om thuis de ruimte te krijgen, moest je eerst het buitenland voor je hebben gewonnen. Alleen door elders te werken, publiceren en exposeren kon je toegang krijgen tot de verenigingen, musea, tijdschriften en galeries thuis. Velen arriveerden pas nadat ze eerst waren vertrokken.

Hetzelfde model voor het verkrijgen van een reputatie is nog steeds van kracht, zij het soepeler dan hierboven beschreven. Maar tegenwoordig is het niet meer nodig je artikel eerst per surface mail naar India te sturen om later een exemplaar bij de koninklijke academie in te kunnen dienen. Er bestaat een nieuw buitenland, een nieuwe kolonie, een nieuwe ruimte voor ambitieuze wetenschappers, geleerden, kunstenaars, en zelfs zakenlieden. Zoals periodieken en musea in den vreemde ooit dienden als potentieel hulpmiddel voor de reputatie van wetenschappers en kunstenaars in spe (of voor hen die hun reputatie wilden oppoetsen), zo bergt het net tegenwoordig dezelfde belofte in zich. Vandaag de dag hoeven je pronkstukjes geen kopieën te zijn van publicaties in tijdschriften aan de andere kant van de wereld of een kleurrijk affiche voor een Senegalese schouwburg, maar een URL of drie.

Gesteund door drukinkt of getekend door het net

Er bestaat echter verschil tussen drukinkt en digitale tekst. Een netpublicatie heeft minder aanzien dan bijvoorbeeld het vroegere koloniale tijdschrift. Voor de lagere epistemologische status, de lage informatiewaarde van dergelijke publicaties zijn enkele redenen aan te wijzen die buiten het web liggen. (Zoals ik verderop zal aantonen, hebben die redenen te maken met recente ontwikkelingen binnen de logica van zoekmachines.)

Van de uitgemolken verhalen over het neerhalen van de TWA-vlucht 800 door de Noordamerikaanse marine en de berichten over een geslaagde koude fusie, tot de door Drudge vanuit Washington verspreide geruchten, wordt pure 'netinformatie' beschouwd als 'zwevende' informatie, als kletspraat, achterklap. Ze spoelt als het ware op je beeldscherm aan. Het digitale kan uiteraard naar believen worden bewerkt - het kan worden doorgestuurd, anoniem worden doorgezonden, gedownload en opnieuw geupload. Maar de status ervan wordt vooral verminderd door het feit dat het door de auteur zelf wordt gepubliceerd (in die zin kun je zeggen dat het net mensen minder macht geeft). Tenzij de auteur een gevestigde naam heeft, zullen de meeste tijdschriften zelfs de doordachtste bijdrage aan een discussiegroep niet willen aanraken, omdat hij niet via de juiste kanalen is verstuurd. Je zou kunnen spreken van dissidentenproza dat is getekend door het net.

Netinformatie blijft uit de aard van de zaak dubieus, tenzij ze wordt gesteund door een erkende producent van informatie - een 'intellectueel redacteur', zoals de International Herald Tribune het noemt. Met andere woorden, netinformatie kan tot kennis worden wanneer ze is geverifieerd door en verbonden aan een geloofwaardige bron - een bron die de reputatie heeft de gebruikte 'methode' na te trekken en te controleren, of het nu die van de journalist is (bevestiging door een onafhankelijke partij of uit de derde hand) of van de wetenschapper (reproduceerbaarheid of onvervalsbaarheid). Wordt de auteur te goeder trouw bevonden, dan kan de tekst worden gepubliceerd of geupload.

Er zijn wel stappen gezet om de status van webinformatie eventueel te vergroten. Al enkele jaren verschijnen er respectabele tijdschriften en kranten on-line met artikelen die zijn voorzien van bronvermeldingen, onafhankelijk worden bevestigd of anderszins het stempel van de waarheid dragen. Gesteund door drukinkt hebben de netpublicaties van deze kranten en tijdschriften wel het vermogen de status van netinformatie in algemenere zin te vergroten, maar veel van hun artikelen worden opgeslagen in databases waartoe de veelzijdige 'webafspeurende spiders' die de zoekmachines voeden geen toegang hebben. Bij de grote, open zoekmachines zal een zoekactie deze achtergrondartikelen niet naar boven halen. Je krijgt enkel oppervlakkige informatie op je bord.

Het web als bron op zich in plaats van hulpbron

Ondanks de lage epistemologische status van webinformatie nemen zowel journalisten als wetenschappers dag in, dag uit eerst een kijkje op het web om een kort overzicht te krijgen van de stand van zaken. Het web wordt gebruikt als informatiebron. De zoekmachine is het gereedschap, de geordende lijst met URL's het eindproduct. Over het algemeen rangschikken zoekmachines de resultaten aan de hand van de aanwezigheid van het gezochte trefwoord op de webpagina en aan het begin daarvan (deze zoekmachines houden van overbodigheid). Bij de nieuwere zoekmachines, zoals webcrawler, komt een pagina hoger in je overzicht van bezochte URL's te staan als je vaker een link maakt met de site (deze zoekmachines houden van hyperlinks).

Zodoende is de vastgestelde 'relevantie' (zoals dat heet) van de gezochte term of woordgroep niet alleen een kwestie van hun positie en frequentie op een pagina, maar ook van de 'populariteit' van die pagina. Hoewel het nog steeds zo is dat de oudere zoekmachines, zoals Yahoo!, werken met redacteuren van vlees en bloed, die de status van automatisch gemelde URL's verifiëren en beoordelen

zie S. Steinberg, 'Seek and Ye Shall Find (Maybe)' in Wired 4.05.

blijven de nieuwere, volautomatische zoekmachines (met hun veelzijdige 'websafspeurende spiders') zich ontwikkelen richting een ordening aan de hand van deze nieuwe maatstaf, de populariteit. Hoe vaker er onderlinge hyperlinks worden gelegd met een site (en hoe herkenbaarder hij is voor de dolende spider), hoe 'betrouwbaarder' en 'relevanter' de zoekmachine hem vindt, en dus vermoedelijk ook de informatie die hij bevat. De interface van de zoekmachine produceert op zijn beurt aanlokkelijke betrouwbaarheidspercentages en asterisken, die ons een gevoel van veiligheid geven, of zelfs het gevoel van de 'zekerheid van de informatiewaarde'.

Het web wordt zo in hoge mate op zichzelf betrokken, een apart domein, zijn eigen bron, iets dat zichzelf als het ware voedt. Wanneer het verband met dat wat zich buiten het net bevindt eenmaal is verbroken - wanneer de mensen die de relevantie moeten beoordelen eenmaal zijn ontkoppeld - kan men (voorzichtig) beginnen te spreken van een zuivere webcontext: informatie die uitsluitend ten bate van het medium wordt gegenereerd. Onvermijdelijk moet hier het gezegde luiden: Het medium is het medium. (Ik heb het hier over Manuel Castells' historische vooruitgang. Als de TV leidde tot de kreet het medium is de boodschap en video stelde dat de boodschap het medium is, en als de multimedia impliceren dat de boodschap de boodschap is, dan betekent het op zichzelf betrokken web-netwerk dat het medium het medium is.)

zie M. Castells, The Rise of the Network Society, Oxford 1996, pp. 327-375

Gewoonlijk begrijpt degene die een zoekactie uitvoert deze op zichzelf betrokken waarheid van het web niet, tenzij ze wordt beschouwd (zoals men haar moet beschouwen) vanuit het oogpunt van de commercie op het web. Bij de meeste zoekmachines draait het om de vraag hoe je je eigen site populairder, en dus vindbaarder, kunt maken. Tips om meer hits te verkrijgen.

zie Danny Sullivans www.searchenginewatch.com

(Het hoeft geen verbazing te wekken dat de zoekmachines hier zelf het hoogst scoren.) Hoewel het nooit kwaad kan om ervan op de hoogte te worden gesteld, helpt de commerciële logica van de relevantie van sites niet om de algehele epistemologische waarde van webinformatie te vergroten. Het web wordt dagelijks afgezocht, en antwoordt met de commerciële logica van de populariteit van informatie.

Om de epistemologische waarde van de verkregen webinformatie te verhogen, zal men misschien een logica willen ontwerpen die niet wordt gevoed door de commerciële belangen van het web, maar door de geografie van informatie - een betrekkelijke logica, die tegelijkertijd rekening houdt met de op zichzelf betrokken aard van het web en de informatie-evolutie die zich erin aftekent.

Kennis in kaart gebracht of: het redigeren van de context van webinformatie

Het principe achter het 'in kaart brengen van kennis' is simpel, althans, dat zou het moeten zijn. Wanneer informatie eenmaal doelgericht is afgebakend of gevisualiseerd met betrekking tot andere informatie, en zodra men heeft geleerd deze weergave te interpreteren, wordt de weergegeven informatie tot kennis. In dit geval levert de kaart de noodzakelijke context voor de anderszins ongelijkwaardige, alleenstaande en onbeduidende brokken informatie die de huidige zoekmachines opleveren. De brokken informatie zelf krijgen geen hogere status, maar de 'kaart' van de informatie (voorzien van een legenda of interface) wordt zowel een bron van kennis (door het veelvoud aan interpretatiemogelijkheden ervan) als de kennis zelf (door de ingebouwde interpretatie van de auteur-cartograaf). Daarnaast vertegenwoordigt hij kennis in de zin dat hij een context biedt van waaruit het betreffende veld van informatie verder kan worden onderzocht.

Om de context van webinformatie te begrijpen en die informatie tot kennis te maken, verkent de informatie-cartograaf de geografie van het web en geeft hij deze weer; dat wil zeggen, de wezenlijke relaties die er op het web bestaan tussen specifieke bronnen van specifieke informatie.

De duidelijkste, en zelfs tamelijk veelzeggende, relatie tussen informatiebronnen op het web over een gegeven onderwerp is de keuze uit hyperlinks tussen deze bronnen. Wie maakt er een link met wie? Wie beantwoordt er aan wie?

Bekijk ter illustratie de weergave van een aantal hyperlink-keuzes van organisaties die betrokken zijn bij de discussie over klimaatverandering op het volgende scherm. Let ook op het feit dat de wetenschappelijke overheidsinstanties uitsluitend links met elkaar onderhouden, het bedrijfsleven hoofdzakelijk op zichzelf staat, de lobbygroep uit het bedrijfsleven (GCC) links onderhoudt met de wetenschappelijke overheidsorganisaties en niet met hun achterban, en de niet-gouvernementele organisaties links onderhouden met elkaar en vrijwel elke andere deelnemer aan de discussie. Net als bij stadsplattegronden, waarbij men zich kan afvragen of het stratenplan een bepaalde historische visie op het verkeer volgt, wordt men bij de 'kenniskaarten' uitgenodigd de achterliggende strategische keuzes bij de hyperlinks te interpreteren.

Noortje Marres heeft dergelijke interpretaties gedaan. | Noortje Marres

Een tweede relatie tussen informatiebronnen heeft betrekking op semantische of discursieve keuzes. Welke partijen hanteren hetzelfde taalgebruik? En hoe benaderen ze bepaalde termen, of welke vormgeving gebruiken ze voor een belangrijk citaat, waar door alle of de meeste partijen naar wordt verwezen?

Afbeelding 5 geeft het commentaar weer van de partijen op een hoofdstelling van voor de overheid werkzame wetenschappers op de IPCC. De uitspraak komt frequent voor op de verschillende sites van de betrokken partijen volgens een tekstanalyse-programma TACT (textual analysis tool), dat meer bekendheid geniet als hulpmiddel bij de interpretatie van het werk van James Joyce. Hoewel het op onderzoek is gebaseerd, krijgt het anderszins toch 'zwevende' citaat van .gov ICCP in afbeelding 5 meer betekenis wanneer het deel uitmaakt van een overzicht dat de toepassing ervan door verschillende organisaties laat zien. Door een overzicht van het gebruik van het citaat krijgt de webinformatie met één oogopslag een context.

Wanneer we de beide overzichten naast elkaar leggen, kunnen we ons buigen over de relaties tussen keuzes op het gebied van hyperlinks en discursieve overeenkomsten. Vertonen degenen die de hoofdstelling in positieve zin gebruiken de neiging links naar elkaar te leggen?

Het beheer van kennis op het web

In elk geval is het doel een op het web gebaseerd sociaal-epistemologisch hulpmiddel te creëren voor een zinvol begrip van anderszins 'zwevende' webinformatie. Dit zou de web-navigator een beeld geven van belangrijke relaties tussen de voornaamste partijen bij (in dit geval) een debat, zoals deze op het web, en uitsluitend op het web worden weergegeven - die nieuwe, dissidente en op zichzelf betrokken ruimte, die nodig toe is aan een epistemologische herdefiniëring.

De inherente interpretatie van het kennisoverzicht, alias de geografie van kennis en macht, is als volgt. Door de wederzijdse hyperlinks tussen bronnen of partijen in kaart te brengen wordt de geografie van de macht oftewel de sociaal-politieke verwantschap blootgelegd. Door de overeenkomsten in taalgebruik van partijen in kaart te brengen wordt de geografie van de kennis oftewel de overeenkomst in stellingname blootgelegd. Dit zijn overeenkomsten of meningsverschillen over de zekerheid van wetenschappelijke stellingen.

Door raadpleging van het internet-archief zouden innovatieve zoekacties de geleidelijke evolutie van deze relaties kunnen blootleggen, wat de weergave van de discussie over het web dynamischer zou maken en meer open voor nieuwe interpretaties door zowel de cartografen als de lezers.

vertaling Pieter Bijker/ZZ Produkties

Met dank aan:

Het Geographies Research Team in Amsterdam en Londen.

Het Geographies-team: Noortje Marres, Alexander Wilkie, Milo Grootjen, Noel Douglas en Alex Somers.

Janet Abrams van het Nederlands Vormgevingsinstituut, lezeres