Checklista: Metadatastatus 

Med ökad digitalisering krävs också ökad uppmärksamhet på metadata. Data om data alltså, eller strukturerad information som beskriver, förklarar, lokaliserar eller på annat sätt gör det lättare att återfinna, använda och förvalta informationsresurser.

Grundläggande registerdata om till exempel titel, objektsnummer eller upphovsman ligger vanligen i prioriterade eller obligatoriska fasta fält i katalogen eller samlingshanteringssystemet, och är ibland öppna för allmänheten. Men till metadata hör också förvaltningsinformation om sådant som konservering och in- eller utlån, samt proveniens och andra mjukare uppgifter, ofta i fritext.

Bristfälliga metadata

Vanliga brister i metadata kan vara sådant som felstavning och andra skrivfel, ofullständiga uppgifter, inkonsekvent användning av datering, nyckelord och interpunktion eller dubbelregistrering och andra nedärvda brister från äldre tiders kataloger, rutiner och standarder.

En enda tappad bokstav i ett namn, ”Stna Aronson”, kan göra det omöjligt att hitta posten för den som gör en korrekt sökning på författaren ”Stina Aronson”. Bristfälliga metadata kan göra digitala material svåra eller omöjliga att hitta och därigenom få långtgående negativa konsekvenser för både forskning, förvaltning, lärande och andra intressen både internt och externt.

Viktigt att framhålla är att vad som är kvalitativa metadata naturligtvis beror på syftet med katalogen, vilket kan ha skiftat över tid, och att kriterierna efter interna och externa behov kan skilja sig åt mellan olika aktörer.
För att kunna hålla ordning på sina digitala objekt eller filer behöver kulturarvsaktörer prioritera professionell förvaltning av metadata, vilket bland annat förutsätter löpande förädling, komplettering och ”datatvätt”.

”Ingen är perfekt!”

Manuellt arbete med kvalificerad katalogisering ger aldrig 100 procent korrekt resultat. Det är viktigt att komma ihåg att den helt perfekta katalogen inte finns, men också att alla kan bli bättre. Helt centralt är att så tidigt som möjligt i normala arbetsflöden rutinmässigt kontrollera kvaliteten på metadata.

De som arbetar operativt med katalogisering kan också behöva stöd och kanske kompetensutveckling i metadata och standarder för innehåll för att hålla jämna steg med den digitala utvecklingen.
Nya möjligheter till välkommen hjälp från användare med taggning och annan hjälp med att hitta information, så kallad crowdsourcing, ställer också ökade krav på strukturerad kvalitetskontroll, så nu är den viktigare än någonsin.

Vad kan man göra?

  • Omvärldsbevaka. Börja med att lägga lite tid på omvärldsspaning och försök hitta goda exempel från andra museer exempelvis. Det finns mycket information att hämta på nätet, både via officiella webbplatser och mer informellt via bloggar och sociala medier.
  • Utarbeta tydliga rutiner för katalogisering. Detta gäller i synnerhet om flera personer, kanske med olikartad kompetens, kommer att vara med och skapa metadata. Formalisera riktlinjer för arbetet och se till att de är lätt tillgängliga, digitalt eller analogt, för dem som katalogiserar.
    Se också till att admingränssnittet är användarvänligt utformat, med en tydlig uppsättning obligatoriska fält. Överväg menyer som går att fälla ner, så kallade drop-down-menyer, för att styra beskrivande innehåll mot större enhetlighet. Alternativt lägg in länkar till relevanta index, auktoritetslistor och thesaurier, alltså förteckningar över de vokabulärer – ord och uttryck – som används i en databas.
  • Kompetensutveckla. Prioritera resurser för att kunna erbjuda befintlig personal den kompetensutveckling de behöver. Sådana insatser kan vara avgörande för en organisation som vill upprätthålla hög kvalitet i metadataförvaltning eftersom det ofta är svårt att hitta rätt kompetenser för nyanställning.
  • Användartesta. Gör användartester med organisationens vanligaste användare – kollegor, allmänhet eller bådadera. Enkla online-enkäter kan ge mycket information om vilka krav användare har på databaserna, och peka på inkonsekvenser eller andra brister. För interna användare i synnerhet, till exempel kollegor som är beroende av institutionens metadata för eget arbete och forskning, kan man överväga att bygga
    enkla tjänster för felrapportering.
  • Gör rutinmässiga kvalitetskontroller. Skapa rutiner för regelbunden och konsekvent utformad kvalitetskontroll för att bedöma metadatastatus. Sådan uppföljning är särskilt viktig om organisationen nyligen har infört förändrade rutiner eller arbetsflöden, då den gör det möjligt att spåra kvalitativa genomslag i katalogen.

Gör en kvalitetskontroll

  1. Utse ansvarig eller ansvariga för processen: en innehållskunnig informationsspecialist eller ett litet team.
  2. Fatta beslut om i vilken utsträckning felaktigheter som påträffas ska rättas direkt i den levande databasen.
  3. Ladda regelbundet, två-fyra gånger om året, upp ett antal testposter till exempelvis OpenRefine.
  4. Fasettera och klustra testposterna i exempelvis OpenRefine, identifiera och dokumentera felaktigheter såsom felstavningar, inkonsekvent användning av versaler eller tomma fält.
  5. Sammanställ dokumentationen så att eventuella kvalitetsförändringar kan iakttas över tid. Detta är särskilt viktigt om organisationen till exempel infört nya rutiner för katalogisering.

OpenRefine kan användas

OpenRefine är ett gratisverktyg som kan användas för den som vill gå i närkamp med sina data i vad som på engelska kallas data wrangling. Verktyget har bland annat använts i en rad LOD-projekt, länkade öppna data-projekt, inom kulturarvsområdet. Men OpenRefine fungerar också bra för den som vill undersöka sub-sets, delmängder, av metadata och underlättar identifiering och loggning av felstavning och andra brister i katalogen.

Det är ett stationärt baserat program som kan laddas hem och användas lokalt. En delmängd metadata kan sedan exporteras från en organisations digitala katalog eller samlingshanteringssystem och laddas upp till OpenRefine som ett nytt projekt. Observera att verktyget inte är gjort för datatvätt. Rättelser kan alltså inte maskinellt laddas tillbaka till organisationens databas utan måste göras manuellt.

Syftet med tjänsterna i OpenRefine är att förbereda dataset för återanvändning, kanske genom att köra dem mot kontrollerade vokabulärer, extrahera namn-entiteter eller publicera dem som länkade öppna data (LOD). Särskilt värdefullt vid en kvalitetskontroll är att verktyget gör det enkelt att granska en datamängd och mäta förekomster av felstavning, tomma fält, skiljetecken och andra brister.

Fasettera

Gränssnittet i OpenRefine ser ut som ett kalkylblad, med rader och kolumner, men det fungerar mer som en databas. Fasettering kan användas på kolumnerna för att lista olika typer av cellvärden och antalet gånger som dessa värden uppträder. En fasett i kolumnen Nyckelord kan till exempel visa 20 poster för ”Väder” och tre poster för ”Vädr”. Det gör det enkelt att identifiera de poster som är felskrivningar.

Klustra

Om man använder klustringsverktyget på en kolumn lägger det samman ord som är lexikalt lika, och det blir enklare att identifiera felstavning eller inkonsekvent användning av versaler. Särskilt användbart är att verktyget, precis som när det gäller fasettering, anger antalet förekomster av ett specifikt cellvärde, en stavning till exempel, intill värdet. Det underlättar undersökning av de inkonsekventa posterna och gör det lättare att rätta felen.

När du vill veta mer

På nätet finns många fria kurser och andra resurser för den som vill lära sig mera om OpenRefine, bland andra från svenska MetaSolutions och belgiska Free your metadata som ger vägledning även för nybörjare.

Om checklistan

Checklistan för metadatastatus bygger på Digisams ursprungliga checklista (2015).

Digisams checklista finns i DiVA(diva-portal.org)