Rekommendation för öppna data
Alla som arbetar med digitalt kulturarv kan sikta mot den stjärnmodell som formulerats av Tim Berners-Lee, mannen bakom Internet. Det är enkelt att ta de första stegen och man kan inte hoppa över något steg, utan varje steg bygger vidare på de tidigare.
Denna rekommendation för arbetet med öppna data kommer från dåvarande Digisam. Den är baserad på underlag från MetaSolutions Vitbok Öppna Data 2014 som i sin tur utgår från Tim Berners-Lees femstjärniga modell, först publicerad 2010.
★ En stjärna för öppna data:
Gör din information tillgänglig på webben, i vilket format som helst, men under öppen licens.
★★ Två stjärnor för strukturerade/maskinläsbara data:
Gör din information tillgänglig som strukturerad data, till exempel i Excel i stället för en inskannad bild av en tabell.
★★★ Tre stjärnor för öppen mjukvara:
Använd icke-proprietära format, alltså format utan licensrestriktioner, till exempel CSV i stället för Excel.
★★★★ Fyra stjärnor för länkbara data:
Använd URI:er för att identifiera ting, och öppna standarder från W3C (RDF och SPARQL) för att uttrycka påståenden om dem.
★★★★★ Fem stjärnor för länkade data:
Skapa sammanhang genom att länka dina data till andras data.
★ En stjärna – data tillgängligt digitalt
Den som gör sina data digitalt och med öppna licenser får en stjärna. Om man till exempel har information tillgänglig på vanliga webbsidor och kompletterar med tydlig information om hur denna data får vidareanvändas så är första stjärnan säkrad.
Det är bra för institutionen eftersom:
- Det är enkelt att publicera.
- Du slipper förklara för andra hela tiden att de är fria att använda dina data.
För användaren är det ett stort steg framåt att kunna använda informationen direkt i stället för att behöva ta kontakt, reda ut tillstånden och beställa data från din organisation.
Användaren kan nu:
- Titta på din data.
- Skriva ut den.
- Ladda hem den och spara den på en egen hårddisk eller USB-sticka.
- Importera dina data till sina egna system, ändra dina data efter sina egna behov, dela dina data med vem hen vill.
★★ Två stjärnor – bättre datakvalitet
Den som gör data tillgänglig i maskinläsbara format säkrar informationsinnehåll som annars kan riskera att gå förlorat vid migrering och extrahering. Det är fortfarande enkelt att publicera, men ger ökad tillförlitlighet och säkrar två stjärnor.
Det är bra för institutionen eftersom:
- Det fortfarande är enkelt att publicera. Användaren kan göra allt som gäller för ★ data och dessutom:
- Direkt processa din data med proprietär programvara, aggregera, kalkylera, visualisera det, med mera, vilket gör det enklare och mer attraktivt att använda.
- Exportera det till ett annat, strukturerat, format.
★★★ Tre stjärnor – öppna data
Den som siktar på tre stjärnor genom att arbeta med öppna format, som är antingen mycket enkla, till exempel CSV, eller mycket väl dokumenterade, skapar förutsättningar för data som är mer långsiktigt hållbar.
Det gör också att de som ska använda informationen inte behöver investera i proprietär teknologi från ett en speciell leverantör. Dessutom minskar risken för felaktig bearbetning av information, särskilt om fullständig dokumentation om formatet saknas. Detta eftersom proprietära format hanteras av tredje parts mjukvara, det är alltså ägaren till filformatet som bestämmer hur det fungerar.
Det är bra för institutionen eftersom:
- Det fortfarande är ganska enkelt att publicera.
- Men du kan eventuellt behöva konverteringar eller plug-ins, alltså ett datorprogram som installeras som ett tillägg i ett annat program, för att exportera data från ett proprietärt format.
Användaren kan nu göra allt som gäller för ★★ data, och dessutom:
- Manipulera dina data hur som helst, utan att hindras av restriktioner i en viss programvara.
★★★★ Fyra stjärnor – enhetlig information
Den fjärde stjärnan ger en rad fördelar. Genom att dela upp datamängderna i poster med globalt unika identifierare (URI:er) gör man det möjligt för andra att referera till egna data på ett sätt som är standardiserat och effektivt.
Dataintegration med andra parter blir enklare då data uttrycks på ett sätt som inte är bundet till det egna datalagret. I stället beskriver man sina data med hjälp av redan existerande termer. Ofta kan man bygga vidare på andras arbete, och anpassa eller kombinera en eller ett par existerande informationsmodeller efter egna behov.
Det innebär att andra parter har lättare att förstå informationsmodellen när de ska vidarenyttja data, och att de i sin tur kan bygga vidare på din organisations insatser.
Då data uttrycks i RDF, ett standardiserat språk för hantering av information, finns redan många tjänster och verktyg som kan användas för att skapa, validera, lagra, maskinellt bearbeta, kombinera, redigera och utforska data med redan existerande frågespråk.
Det är bra för institutionen eftersom:
- Du kan ha kontroll över dina data på hög detaljeringsnivå och därigenom göra tillgång, flöden, cachning etcetera så bra som möjligt.
- Andra dataförvaltare kan nu länka in mot dina data och hjälpa dig vidare mot 5 stjärnor!
- Men du måste ofta lägga en del tid på att städa och tvätta dina data.
- Du behöver ge dina dataposter unika identifierare, URI:er, och tänka igenom hur du vill presentera dina data.
- Du behöver antingen använda befintliga designmönster eller skapa egna.
Användaren kan nu göra allt hen kunde med ★★★ data, och dessutom:
- Länka till dina data från en annan plats på webben, eller lokalt.
- Bokmärka dina data.
- Återanvända delar av dina data.
- Eventuellt återanvända befintliga verktyg och sammanställningar, även om hen bara förstår vissa delar av de designmönster som använts vid publicering.
- Att förstå strukturen i en datagraf, RDF, kan dock uppfattas som svårare än att förstå tabeller, Excel eller CSV, eller dataträd.
- På ett säkert sätt kombinera dina data med andra datakällor. URI:er ingår i en global struktur, så om två ting refererar till samma URI är det antagligen avsiktligt, vilket betyder ett steg närmare ★★★★★ data!
★★★★★ Fem stjärnor – länkade öppna data
Den femte stjärnan ger flera ytterligare fördelar. Den gör det lättare att höja kvaliteten på dina data genom att länka till väletablerade och väl uttänkta termer och begrepp i stället för att skapa egna eller skriva fritext. Du kan använd data, begrepp och termer från andra datakällor direkt när behov uppstår utan att först behöva fokusera på tekniska aspekter av dataintegration som import, konvertering, drift och underhåll.
Effektivt använd länkning kan leda till en fördjupad specialisering då du kan fokusera på att underhålla de delar av dina data som är unika för din organisation och lägga mindre tid på information som redan finns i andra datakällor.
Länkar till andra datakällor ökar förtroendet för att dina data är genomtänkta, ungefär på samma sätt som referenser i artiklar visar på att informationen där är tillförlitlig och förankrad i ett större sammanhang. Länkar ut ökar också synligheten för dina data, då de blir en del av det större länkade datamolnet, vilket i ett längre perspektiv kan leda till återanvändning i nya sammanhang, och länkar in från andra förvaltare.
Det är bra för institutionen eftersom:
- Dina data blir lättare att upptäcka.
- Du ökar värdet av dina data.
- Din organisation kommer att dra nytta av länkarna på samma sätt som användarna.
- Men du behöver lägga resurser på att länka dina data till andra data på webben.
- Du kan behöva bevaka och laga brutna eller felaktiga länkar.
Användaren kan göra allt hen kunde med ★★★★ data och dessutom:
- Upptäcka mer, relaterade, data när hen använder dina data.
- Direkt få överblick över dataschemat.
- Men hen måste också hantera brutna länkar på liknande sätt som med 404 felmeddelanden på webben.
- Att koppla data till en länk vilken som helst är lika vanskligt som att använda innehåll från en webbsida vilken som helst. Försiktighet, tillit och sunt förnuft behövs fortfarande.
Den som börjat arbeta med öppna data kan få sina resurser certifierade genom Open Data Institute. Man bör också registrera sina öppna data på den nationella portalen för Öppna data. Länkar finns längst ner.
För mer fördjupning i ämnet se vidare Meta Solutions Vitbok Öppna Data eller med en mer teknisk ingång, Linked Data Basics for Techies, som utarbetats av Cristopher Gutteridge på Southampton university i England, se länkar nedan.
Den som vill veta mer om Berners-Lee och tankarna bakom stjärnorna kan ta del av hans TEDtalks, se länkar längre ned på sidan.
När du vill veta mer
- Vad som menas med proprietär programvara (sv.wikipedia.org)
- Vad som menas med designmönster (sv.wikipedia.org)
- ODI-certifikat för öppna data (theodi.org)
- Sveriges dataportal (digg.se)
- Vitbok länkade öppna data (lankadedata.se)
- Grunderna i länkade data för tekniker – OpenOrg (southampton.ac.uk)
- Länkade data – designproblem (w3.org)
- Tim Berners-Lee TEDtalks (ted.com)
- Olika typer av metadata
- Rekommendation för öppna data från Digisam (diva-portal.org)