Gigantische hoeveelheid informatie onder handbereik


Het was een bekend beeld in archieven en bibliotheken: onderzoekers, omgeven door documenten, plakkaten en oude boeken, urenlang op zoek naar ‘hun’ naald in de hooiberg. Bij elke omgeslagen pagina schilferden stukjes papier van de bladzijden af. Ze zijn er nog steeds - het zijn er zelfs meer, maar minder zichtbaar. Veel speurwerk gebeurt nu met de computer. In de afgelopen decennia is een gigantische hoeveelheid informatie voor iedereen toegankelijk geworden dankzij digitalisering.

Gigantische hoeveelheid boeken en documenten bereikbaar voor iedereen met een computer

Digitalisering impuls voor archiefonderzoek

Door ANDRÉ HORLINGS

(15 oktober 2012) Tijdens zoektochten op internet was ik best weleens een resultaat van Google Books tegengekomen, maar dat maakte me vooralsnog alleen duidelijk dat het onderwerp ook in een boek was beschreven. Dat kon ik kopen of inzien in een bibliotheek, dus ik ging verder, naar het volgende zoekresultaat.

Kroniek De kroniek van Friesland, begonnen door Occo van Scharl, aangevuld en herdrukt in 1742. En compleet op internet beschikbaar, ‘Gedigitaliseerd door Google’ (onderin). Klik op het boek voor het gedigitaliseerde exemplaar >

Totdat ik op zoek ging naar achtergronden van de Slag bij Warns. In een vorig leven, als journalist bij de Winschoter Courant, hield ik me vrij intensief bezig met de geschiedenis van Noord-Nederland. Toen ik in het Rijksarchief in Groningen op zoek ging naar gegevens kreeg ik inzage in een eeuwenoud boek, ‘Chronyk en waaragtige beschryvinge van Friesland’ van Occo van Scharl. Daarin las ik onder veel meer over her Rode Klif in Friesland, vlakbij het plaatsje Scharl; vast de woonplaats van Occo. De keileemheuvel zou soms zelfs vlammen hebben uitgespuwd.

Ik herinnerde me dat verhaal tijdens een vakantie, deze zomer in Friesland. Ik bezocht het Rode Klif; een groen begroeide heuvel aan de IJsselmeerkust bij Stavoren, en Scharl, een gehucht om de hoek. Een bord meldde dat de Slag by Warns eind september zou worden herdacht. Ik wilde dat verhaal wel weer eens teruglezen.

Google Books deed me de suggestie een gedrukt boek aan te schaffen. Dat kon: voor 475 euro. Verder zoeken: een ruime keuze uit reprints in USA en United Kingdom(!), voor prijzen tussen 25 en 40 euro. Weer verder zoeken: De complete versie uit 1742 online! Ook op Google Books. En ik kon die ook nog als PDF downloaden!

eBibliotheek

Dat smaakte naar meer. Een klik op over dit boek maakte duidelijk dat het gescande exemplaar uit de Universiteit van Gent kwam en gaf een reeks ‘verwante werken’; over: ‘Merkwaardige meest Vriesche mannen en vrouwen’, ‘Heilige feestgezangen’, ‘Het groot Munster’, munten, de Friese kroniek van Pierus Winsemius uit 1622 en meer weinig verwante werken. Maar iedere klik gaf (meestal) de complete inhoud weer van dat werk, plus een nieuwe reeks ‘verwante werken’. En zo begon een zwerftocht door Google Books die sterk herinnerde aan de zoektochten met AltaVista uit de begintijd van het Internet, toen het surfen vaker leidde tot de ontdekking van verrassende sites over andere onderwerpen dan tot het antwoord op de vraag.

verwant

Bij ieder resultaat geeft Google ook een overzicht van (al dan niet) ‘verwante boeken’.

Het maken van bookmarks voor interessante werken liep al gauw uit de hand: het waren er te veel. Ik maakte een internetpagina, waarbij ik me probeerde te beperken tot mijn persoonlijke (overigens best wel brede) interesses. Mijn ‘eBibliotheek’ groeide desondanks uit tot een heel lang overzicht van antiquarische werken. En toch is dat maar een fractie van de enorme hoeveelheid gedigitaliseerd materaal die intussen al beschikbaar is.

‘Alle boeken ter wereld’

Google Books (of Google Books Search) ging van start in 2004, met de ambitie zo’n beetje alle boeken ter wereld te ontsluiten. Om te beginnen met boeken die rechtenvrij zijn. Om nog meer rechtzaken over auteursrecht te voorkomen dat er al achter de rug zijn beperkt Google zich nu voornamelijk tot boeken voor 1871. Of het moest zijn dat de uitgever toestemming heeft gegeven de inhoud van recenter werk geheel of gedeeltelijk weer te geven. Soms wordt aangegeven op welke pagina van een boek een zoekterm is terug te vinden; sommige uitgevers maken het mogelijk uitgaven gedeeltelijk in te zien.

Auteursrecht

Ewoud Sanders, journalist en taalhistoricus, vindt het auteursrecht volstrekt achterhaald. Formeel moet je 70 jaar wachten na iemands dood voordat je werk van zijn hand mag verspreiden; Google Books heeft die grens nog verdubbeld. Hij noemde het in een interview in Boekennieuws

‘de grootste rem op verspreiding van kennis die er is. Ik zou het een enorme winst vinden als een politieke partij zijn nek uit zou durven steken door te zeggen: “We hebben hier te maken met een wet uit het begin van de twintigste eeuw. Laten we hem aanpassen want het slaat helemaal nergens meer op.”
De digitalisering van actueel wetenschappelijk onderzoek breidt zich desondanks enorm uit. Proefschriften zijn meestal digitaal beschikbaar. Wageningen University (vroeger de Landbouwuniversiteit) heeft alle 4000 proefschriften sinds 1920 op internet toegankelijk gemaakt.

kaapbrieven

Onlangs zette het Meertens Instituut honderden brieven online die achterbleven op door Engelsen gekaapte schepen en nooit bij de geadresseerde arriveerden.

‘Cultuurbarbarisme’

In 2007 kwam de Koninklijke Bibliotheek in Den Haag in het nieuws vanwege een plan om boeken kapot te snijden om ze te kunnen digitaliseren. Hans Jansen, directeur Research & Development van de KB, had geconcludeerd dat de tot dan toe gebruikte digitaliseringsmethode – blad per blad – te traag en te duur was.

Ik zie maar één oplossing: snijd de rug van de boeken af en haal ze als een stapeltje papier door de scanner. Het boek ben je kwijt, maar je hebt het wel gedigitaliseerd voor minder dan een tientje, in plaats van 30 tot 150 euro.
Het lokte een storm van protest uit, over ‘cultuurbarbarisme’: boeken verniel je niet. Overigens verliep een proef – met exemplaren van boeken die ‘dubbel’ waren in de bibliotheek, niet erg bevredigend. Intussen hoeven de boeken niet meer uit de band en kunnen ze na digitalisering gewoon weer in de kast terug worden gezet.

Google Books

In 2007 ging Google een samenwerking aan met de Universiteitsbibliotheek Gent (300.000 boeken tot 1870), en in 2010 met de Koninklijke Bibliotheek in Den Haag (160.000 boeken van 1700 tot 1870). Veel antieke Nederlandse Google Books blijken trouwens afkomstig uit andere universiteiten, over de hele wereld. Intussen heeft Google rond 15 miljoen boeken gedigitaliseerd; de meeste Engelstalig. Het worden er in totaal zo’n 130 miljoen.

Op het ogenblik heeft Google ruim 9000 boeken van de Koninklijke Bibliotheek gedigitaliseerd. Ze zijn te vinden door een zoekfilter in te stellen door op de website van de KB naar Algemene catalogus te gaan en in het menu te klikken op Geavanceerd. Vervolgens in het zoekmenu invullen: aanvraagnummer > digitaal bestand; alle woorden > google en sorteer op > relevantie (zó dus). Na een klik op ‘zoeken’ verschijnen de eerste tien resultaten (van dus ruim 9000). De zoektocht kan worden toegespitst door meer zoektermen in te voeren. Met een klik op ‘Raadpleging via Google Books’ onderin verschijnt het gedigitaliseerde exemplaar.

krantenDigitaliseringsprojecten

< Veel kranten zijn tegenwoordig op papier, iPad en iPod te lezen.

De samenwerking met Google Books is trouwens maar één van de vele digitaliseringsprojecten waar de Koninklijke Bibliotheek zich in de afgelopen decennia mee bezighoudt en -hield. Zo kan er worden gezocht in vier eeuwen kranten en wordt een nationale digitale collectie van het cultureel erfgoed toegankelijk gemaakt op internet in het Geheugen van Nederland, zoals alleen al bijvoorbeeld ruim 800 dagboeken. Op de startpagina KB.nl staat een zoekmachine voor de meest geraadpleegde bronnen.

Digitaal erfgoed

Europeana In het Europese erfgoedproject Europeana werken nationale bibliotheken en wetenschappelijke instituten van de 27 lidstaten van de Europese Unie samen >

De Koninklijke Bibliotheek is ook betrokken bij het project ’Digitale Collectie’ voor de nationale ontsluiting van metadata van miljoenen digitale erfgoed-objecten. De andere deelnemers zijn het Nationaal Archief, het Nederlands Archief voor Beeld en Geluid en de Rijksdienst voor Cultureel Erfgoed. Doel is de aanwezigheid van het Nederlandse erfgoed op de Europese erfgoedportal Europeana te vergroten. De verschillende erfgoeddomeinen. worden samengebracht in een centrale index die toegankelijk is via het Kenniscentrum Digitaal Erfgoed.

Ook de Digitale Bibliotheek voor de Nederlandse Letteren (DBNL) levert een belangrijke bijdrage in het doorgeven van digitale kennis. De website over de Nederlandse literatuur, taal en cultuurgeschiedenis bevat literaire teksten, secundaire literatuur en aanvullende informatie als biografieën, portretten en hyperlinks, naast een groot aantal studies en primaire bronnen op het brede terrein van de Nederlands(talig)e cultuurgeschiedenis. De weg is gemakkelijk te vinden door middel van snelnavigatie. Vaak zijn de teksten doorzoekbaar gemaakt; anders is er een scan van de originele pagina’s.

Digitale revolutie een zegen

Ewoud Sanders beschouwt de digitale revolutie als een zegen. Toen de KB in 2007 over de hekel ging wegens ‘cultuurbarbarisme’ was hij zelf net bezig zijn eigen bibliotheek – verdeeld over dertig boekenkasten – op dezelfde manier te ‘vernietigen’. Hij beschreef de klus in zijn rubriek Woordhoek in NRC Handelsblad.

Je legt een boek onder een snijmachine, je snijdt – rats! – de rug eraf en je legt de losse bladen vervolgens in een scanner, die (afhankelijk van de kwaliteit) zo’n honderd pagina’s per minuut digitaliseert. Vervolgens laat je die pagina’s lezen door een zogenoemd ocr-programma, een programma voor automatische tekenherkenning. Op deze manier kun je een boek van tweehonderd pagina’s in tien minuten omzetten in een op woordniveau doorzoekbare pdf (dit staat voor ‘portable document format’). Bijkomend voordeel: je kijkt [op de computer] naar originele afbeeldingen van de pagina.
Intussen is zijn complete bibliotheek aangegroeid tot 1,5 terabyte (1,5 triljoen bytes), die past op een externe harddisk die voor rond de honderd euro te koop is. Alles in OCR gescand PDF-formaat en geïndexeerd. Het zoeken naar bepaalde thema’s of sleutelwoorden is een kwestie van seconden.

Digitaal onderzoek

boeken In de VS worden al ’25.000 boeken voor de iPad´ in één pakket aangeboden >

In lezingen (pdf) maakte Sanders uitvoerig duidelijk hoe ‘de opbouw van een eigen digitale bibliotheek’ kan worden gerealiseerd. Hij liet zien hoe gemakkelijk hij intussen zijn eigen harde schijjf kan doorzoeken op de meest triviale onderwerpen en maakte duidelijk dat de enorme mogelijkheden van digitalisering op de werkvloer nauwelijks worden benut.

Een internetpagina, Slimmer zoeken op internet, laat zien wat hij bedoelt. Hij werkte dat ook uit in een boekje, ‘Eerste hulp bij e-Onderzoek’, waarvan sinds september 2011 zes geactualiseerde edities verschenen. Ze werden gratis verspreid onder 75.000 studenten en docenten en 1500 journalisten; het kan nog worden besteld (voor 7,50 euro) via de website.

Engelstalige video over het digitaliseren van een boek. Hier wordt eerst de rug met een cirkelzaag verwijderd….

Zie ook:
- Nederlandse boeken op het Amerikaanse Project Gutenberg; Huygens Instituut voor Nederlandse Geschiedenis; Early Dutch Books Online (samenwerkingsverband universiteitsbibliotheken van Amsterdam, Leiden en de KB); Fries Historisch en Letterkkundig CentrumTresoar.nl: digitale collectie (zeer onvolledig overzicht); en anders miljoenen gratis boeken.
- André Horlings: Mijn Digitale Bibliotheek (vooral antiquarische werken via Google Books).
- Publicaties Ewoud Sanders .

Dit verhaal werd op 15 oktober 2012 gepubliceerd op Historiek.net.



DUTCH COURAGE'S PRODUCTIONS
Documentaires: Arnhem Spookstad | Rees: De verzwegen deportatie | Kriegsgefangenenpost | Drama SS Pavon
Publicaties: Artikelen en features | Krapulistische oprispingen | 100 jaar Apeldoornse Courant
Webcams: World Webcam Monitor > Unprotected webcams > Cruiseship cams > List of webcams and more
Media: Press > TV > Radio & video > Twitter and more
World: Atlas | Natural events | Weather > Climate change | Disasters > Earth's End
Various: Dutch Courage's Boeken | Guitar at Charles Bridge | Contact

Aangepast zoeken
© André Horlings
Make a Free Website with Yola.