Nettarkivering

fra Wikipedia, den frie encyklopedi
Hopp til navigasjon Hopp til søk

Nettarkivering refererer til innsamling og permanent arkivering av elektroniske publikasjoner med det formål å kunne tilby publikum og vitenskap et glimt inn i fortiden i fremtiden. Resultatet av prosessen er et webarkiv .

Det største internasjonale anlegget for webarkivering er Internet Archive i San Francisco (USA), som ser på seg selv som arkivet til hele World Wide Web. Statsarkiver og biblioteker i mange land gjør en innsats for å sikre nettverksposter i sitt område.

Fra 1987, de tyske arkiv lover definert arkivering av digitale dokumenter som en obligatorisk oppgave for statsarkivene, men gjennomføringen av dette mandatet er bare begynnelsen. I 2006 ble DNBG (lov om det tyske nasjonalbiblioteket) vedtatt, noe som utvider mandatet til det tyske nasjonalbiblioteket til å omfatte arkivering av nettsteder. Forbundsstatene planlegger sitt juridiske innskudd for å endre -Gesetze i denne forstand, eller endringen har allerede funnet sted.

Arkivering av mål

Målet med webarkivering er å systematisk kartlegge en definert del av webtilstedeværelsene som er tilgjengelige på Internett. For dette formålet må en overordnet innsamlingspolicy, en utvelgelsesprosedyre og hyppigheten av arkivering avklares på forhånd.

Et arkivert nettsted med alle multimediefunksjoner ( HTML -kode , stilark , JavaScript , bilder og video) bør bevares på lang sikt. Metadata som opprinnelse , anskaffelsestidspunkt, MIME -type og omfang av dataene brukes til påfølgende beskrivelse, bruk og bevaring. Metadataene sikrer ektheten ogintegriteten til det digitale arkivmaterialet.

Etter overtakelsen må det tas tekniske og juridiske forholdsregler for å sikre konstant offentlig tilgjengelighet og for å forhindre senere endringer i arkivmaterialet. [1]

Terminologi

Opprinnelig ressurs
En original kilde som for øyeblikket er eller bør være tilgjengelig på Internett og som kreves tilgang til en tidligere tilstand. [2] [3]
Minne
Et minne om en original kilde er en ressurs som innkapsler den opprinnelige tilstanden til en kilde på et definert tidspunkt. [2] [3]
TimeGate
En TimeGate er en ressurs som, basert på en gitt dato og klokkeslett, finner det minne som best tilsvarer denne tidsgrensen. [2] [3]
TimeMap
Et TimeMap er en ressurs som sender ut en liste over alle minner som noen gang har blitt opprettet for den opprinnelige kilden. [2] [3]

Utvelgelsesprosess

Uspesifikk
I denne utvelgelsesprosessen skrives gradvis et helt domene til et arkiv. På grunn av det store minnekravet, fungerer prosedyren bare for mindre domener (netarkivet.dk).
plukkliste
En liste over institusjoner fastsettes på forhånd. Stabiliteten til nettadressene knyttet til institusjonene må kontrolleres regelmessig.
Bruk av tilgangsstatistikk
I fremtiden kan det tenkes "intelligent" høsting som, basert på tilgangstall, arkiverer de delene av nettet (eller et utvalg) som har spesielt høye tilgangshastigheter.

Adopsjonsmetoder

Fjernhøsting

Den vanligste arkiveringsmetoden er å bruke en webcrawler . En webcrawler henter innholdet på et nettsted som en menneskelig bruker og skriver resultatene til et arkivobjekt. Mer presist betyr dette et rekursivt søk på nettsteder basert på koblingene som finnes på dem, fra et bestemt startområde, som enten kan være et nettsted eller en liste over nettsteder som skal søkes. På grunn av kvantitative begrensninger, f.eks. På grunn av varighet eller lagringsplass, er forskjellige begrensninger (oppsigelsesbetingelser) med hensyn til dybde, domene og filtyper som skal arkiveres mulig.

I større prosjekter er evaluering av nettsteder for URL -rangering av spesiell betydning. I løpet av en gjennomsøkingsprosess kan et stort antall nettadresser samle seg, som deretter enten behandles i en liste ved hjelp av FIFO -metoden eller som en prioritetskø . I sistnevnte tilfelle kan nettstedene forestilles i en haugstruktur. Hvert nettsted danner sin egen haug, og hver lenke til et annet nettsted som finnes på det, danner en underheap som representerer et element i haugen til det forrige nettstedet. Dette har også fordelen at i tilfelle en overfylt URL -liste, blir de med lavest prioritet erstattet av nye oppføringer først.

Imidlertid kan den opprinnelige strukturen på serveren sjelden gjengis nøyaktig i arkivet. For å kunne utelukke eventuelle tekniske problemer som kan oppstå i forkant av speiling, er det lurt å foreta en analyse av nettstedet på forhånd. Selv om dette dobler datatrafikken i de fleste tilfeller, reduserer det arbeidstiden betraktelig ved feil. [4]

Eksempler på webcrawlere er:

  • Heritrix
  • HTTrack
  • Frakoblet utforsker

Arkiverer det skjulte nettet

Det skjulte nettet eller dype nettet refererer til databaser som ofte representerer det faktiske innholdet på et nettsted og bare sendes ut på forespørsel fra en bruker. Som et resultat endres nettet konstant, og det ser ut som om det er av uendelig størrelse. Et grensesnitt som hovedsakelig er basert på XML er nødvendig for å overta disse databasene. Verktøyene DeepArc ( Bibliothèque nationale de France ) og Xinq ( National Library of Australia ) er utviklet for slik tilgang.

Transaksjonell arkivering

Denne fremgangsmåten brukes til å arkivere resultatene av en nettstedsprosess. Det er viktig for anlegg som må dokumentere bruken av juridiske årsaker. Forutsetningen er installasjon av et tilleggsprogram på webserveren.

Nettarkivering i Tyskland

På føderalt nivå har det tyske nasjonalbiblioteket (DNB) hatt det lovfestede mandatet for webarkivering siden 2006. Siden 2012 har nettsteder blitt arkivert tematisk og for visse hendelser, dvs. selektivt og ikke i sin helhet. DNB jobber med en ekstern tjenesteleverandør. I tillegg har alle DE -domener blitt gjennomsøkt en gang i 2014 . Nettarkivet er hovedsakelig tilgjengelig på lesesalene. [5]

I tillegg til webarkiveringen av DNB, er det initiativer i forskjellige føderale stater:

Det er også andre webarkiveringsinitiativer i Tyskland, for eksempel fra partitilknyttede stiftelser , fra SWR , fra Deutsche Post eller fra bioteknologi / farmasøytisk selskap AbbVie .

Se også

Implementeringer

weblenker

Individuelle bevis

  1. Steffen Fritz: Omskrivehistorie. (PDF) med WARC -filer. Januar 2016, arkivert fra originalen 9. november 2017 ; åpnet 9. november 2017 .
  2. a b c d RfC 7089 HTTP -rammeverk for tidsbasert tilgang til ressursstater - Memento
  3. a b c d Memento Guide: Introduksjon. Hentet 5. oktober 2018 .
  4. Steffen Fritz: Praksisrapport: Prosedyre for evaluering av arkiverbarhet for webobjekter I: ABI Technik nr. 2, 2015, s. 117–120. doi: 10.1515 / abitech-2015-0015
  5. Tobias Steinke: Arkiverer det tyske Internett? Mellom en selektiv tilnærming og .de -domenesøk . Tysk nasjonalbibliotek, 26. juni 2014 ( dnb.de [PDF]).
  6. ^ Felix Geisler, Wiebke Dannehl, Christian Keitel, Stefan Wolf: Om statusen for nettarkivering i Baden-Württemberg . I: Bibliotekstjeneste . teip   51 , nei.   6 , 1. juni 2017, ISSN 2194-9646 , s.   481-489, doi : 10.1515 / bd-fra 2017 til 0051 ( degruyter.com [åpnet 24. mars 2020]).
  7. Tobias Beinert: Nettarkivering på Bayerische Staatsbibliothek . I: Bibliotekstjeneste . teip   51 , nei.   6 , 1. juni 2017, ISSN 2194-9646 , s.   490-499, doi : 10.1515 / bd-2017-0052 ( degruyter.com [åpnet 24. mars 2020]).
  8. Nettarkivering av arbeidsflyt i langsiktig arkivering ved Bayerische Staatsbibliothek | BABS. Hentet 24. mars 2020 .
  9. Edoweb: Rheinland-Pfalz arkiv server for elektroniske dokumenter og nettsteder. Hentet 24. mars 2020 .