Du som jobbar inom forsknings och miljöanalys hanterar troligen data varje dag utan att tänka på det som "datahantering". På den här sidan kan du läsa om vad datahantering är och hur du kan förbättra din datahantering.
Vad är datahantering?
Datahantering är ett koncept som inkluderar allt som görs med data från forskning och miljöanalys, under förberedelserna av ett projekt, när det genomförs och efter det att det har avslutats. God datahantering hjälper dig i ditt arbete, ökar värdet på forskning och miljöanalys och säkerställer att regler och lagar följs.
God datahantering, det vill säga datahantering som följer lagar, principer och praxis, är inte ett självändamål utan en strategi för att effektivisera och underlätta forskning och miljöanalys, ett sätt att bevara och sprida resultat så de kommer till större nytta, och en viktig del i god forskningssed.
God datahantering:
möjliggör effektivare användning av forskares och miljöanalytikers tid
gör forskning och miljöanalys mer transparent
underlättar validering av forskning
innebär att filer och data förvaras så att de är lätta att hitta
minskar riskerna för informationsförlust och dataintrång
möjliggör återanvändning av data
kan leda till nya samarbeten
visar att användningen av offentliga medel sker på ett ansvarsfullt sätt.
Forskningsdata och miljöanalysdata är data som samlas in eller genereras med vetenskaplig metodik för att användas för olika sorters vetenskapliga analyser. Såväl forskningsdata som miljöanalysdata förekommer i olika former, till exempel:
numeriska data, till exempel mätresultat
text, till exempel intervju- och enkätsvar
bild- och ljudmaterial
källkod
kartmaterial och andra former av geografiska data
observationer, till exempel av artförekomster.
Datalivscykeln – från planering till långtidsbevarande och återanvändning av data
Det är vanligt att tala om vikten av god datahantering genom hela datalivscykeln. Datalivscykeln (bilden nedan) är en konceptuell modell som illustrerar datahanteringens olika faser, från planering och insamling, via lagring och bearbetning, till publicering och långtidsbevarande samt återanvändning av data.
Planera och förbereda datahantering
Att planera datahantering hjälper dig att se ett projekts behov, såväl tekniska som juridiska och etiska, när det gäller data. Innan ett projekt startar eller i början av projektet är det viktigt att tänka igenom frågor om datahantering, till exempel:
Vilka data kommer projektet använda?
Ska vi samla in personuppgifter eller andra skyddsvärda data?
Hur delar jag data med mina samarbetspartner?
Hur ska data lagras och vilka ska ha tillgång till data under projektet?
Hur ska data tillgängliggöras och bevaras?
En central del i planering av datahantering är den så kallade datahanteringsplanen. En datahanteringsplan är ett dokument där du beskriver hur data ska hanteras under och efter ett forskningsprojekt, inom en miljöverksamhet eller i en forskningsinfrastruktur. Datahanteringsplanen gör det lättare att förutse potentiella problem och svårigheter innan de uppstår, vilket ger dig bästa möjliga förutsättningar att hitta den lösning som passar dig och ditt projekt bäst. Planen kan också fungera som introduktion för medarbetare som kommer in i projektet när det redan är igång.
Datahanteringsplanen är ett levande dokument som ska uppdateras löpande.
Enligt SLU:s policy för datahantering är datahanteringsplaner obligatoriska för alla nya forsknings- och miljöanalysprojekt (startade i september 2022 eller senare) vid universitetet.
Allt fler finansiärer (t ex VR, Formas, Naturvårdsverket, Forte, Riksbankens jubileumsfond, EU) kräver att projekten de finansierar tar fram, underhåller och följer en datahanteringsplan. Även om inte finansiären kräver en datahanteringsplan är det ett krav i SLU:s policy.
Kontrollera vilka krav på datahanteringsplaner som din finansiär ställer, eller kontakta SLU:s datahanteringsstöd (dms@slu.se).
SLU erbjuder ett webbverktyg för att skriva datahanteringsplaner och som underlättar att få med den information som behövs.
Data kan lätt bli ostrukturerade, oavsett om du arbetar tillsammans med andra eller på egen hand. Därför är det bra att bestämma hur filer organiseras och namnges, och att alla i projektet följer samma metod. Det är också en fördel att ha ett system för att hantera olika versioner av samma fil, eftersom det möjliggör spårning av ändringar och underlättar om du behöver rätta fel.
Bestäm hur du organiserar och namnger filer och mappar för att spara tid och undvika fel. Ett logiskt och konsekvent system hjälper dig hitta rätt filer snabbt och korrekt.
Att dokumentera sitt filhanteringssystem är en bra idé, särskilt när du samarbetar med andra. En beskrivning av mappstrukturen och konventionen för namngivning av filer och mappar, kan placeras i en stödjande README-fil i projektets toppmapp där den lätt kan hittas av alla inblandade.
Filer går ofta igenom ändringar som du behöver hålla reda på. Att spara fler versioner av filer och att enkelt kunna komma åt olika versioner gör det lättare att spåra ändringar och rätta fel. Versionskontroll kan göras med hjälp av filnamn och tabeller eller med hjälp av program. Att göra ändringar i ett program med hjälp av kod eller skript är ett annat sätt att systematiskt identifiera olika versioner av en datamängd.
Tänk på att originaldata inte får ändras. Ifall du ska bearbeta data, skapa först en kopia som du arbetar vidare med.
Läs mer om att dokumentera data längre ned på den här sidan.
Data ska förvaras säkert! För att hindra dataförlust och obehörig åtkomst ska du använda en säker lagringslösning med säkerhetskopiering. Du bör också hålla isär förvaringen av rådata och arbetsfiler, så att det alltid finns en intakt, obearbetad masterfil att gå tillbaka till.
Det är viktigt att välja en lagringslösning som uppfyller de krav som ställs utifrån egenskaper hos data som ska lagras, till exempel förekomst av personuppgifter och andra skyddsvärda data.
Vid valet av lagringslösning måste några frågor besvarar:
Hur mycket volym behöver projektet?
Är data aktiva eller ska de lagras under en längre tid?
Vem behöver ha tillgång till data?
Innehåller data känslig information, till exempel personuppgifter eller information om förekomster av skyddade arter?
För att data ska vara möjliga att validera, förstå, hitta och återanvända krävs metadata och dokumentation. Med dokumentation menas beskrivningar av data främst avsedda att läsas av människor (och som därför kan bestå av löpande text). Metadata är också dokumentation men strukturerade så att de kan läsas av både människor och datorer.
Data bör dokumenteras på projektnivå, filnivå och variabelnivå. Vad som är relevant att dokumentera skiljer sig mellan forskningsämnen och metoder. Målet är att dokumentera data så att de går att förstå och återanvända.
Exempel på saker som alltid är viktiga att dokumentera är:
Hur data samlats in (allt från provtagningsutrustning och mätinstrument till enkätfrågeformuleringar och intervjufrågor).
Var och när data samlats in.
När data samlats in.
Vad koder och förkortningar betyder.
Vilka eventuella restriktioner, till exempel etiska eller juridiska, som begränsar hur data kan återanvänds.
Det finns olika sätt att dokumentera data. Vilket verktyg som passar att använda för datadokumentationen är beroende av vetenskaplig disciplin och i vilka format data är. Olika verktyg kan också passa under olika faser i arbetet. Här är några exempel på tillvägagångssätt:
Ett separat, kompletterande dokument kan användas, till exempel en textfil (en så kallad README-fil, dvs en textfil med namnet readme.txt) som sparas på samma plats som datafilerna.
En del filformat har stöd för integrerade metadata.
När du ska publicera data i ett datarepositorium är det viktigt att undersöka vilka krav och möjligheter repositoriet har när det gäller dokumentation och metadata. Välj gärna ett datarepositorium med rika möjligheter att beskriva data.
Det är inte bara färdiga data som ska dokumenteras, det är också viktigt att dokumentera exempelvis insamlingsmetoder, bearbetningar, analyser och databehandling under projektets gång. God dokumentation underlättar när du skriver artiklar och när du beskriver och tillgängliggör de färdiga dataseten.
Det finns många verktyg och hjälpmedel som kan användas för att dokumentera processer och arbetsflöden, till exempel:
Dokumentation kan publiceras tillsammans med data när data publiceras i ett datarepositorium och när de tillgängliggörs genom SLU:s datavärdskap eller genom andra myndigheter.
Om dokumentationen publiceras separat bör den förses med en beständig identifierare så användare kan hitta och referera till dokumentationen. Var dokumentation och metadata bäst tillgängliggörs beror på vilket format de är i. Möjliga alternativ inkluderar SLU:s publikationsdatabas och SLU:s e-arkiv.
SLU:s publikationsdatabas
SLU:s publikationsdatabas ska användas för publikationer utgivna av SLU. Den lämpar sig för manualer, instruktioner och rapporter.
SLU:s e-arkiv kan användas för att arkivera dokument och förse dem med beständiga identifierare. Dokumenten kan vara tillgängliga antingen öppet eller på begäran. E-arkivet lämpar sig för dokument som inte kan publiceras i SLU:s publikationsdatabas. Om du vill arkivera ett dokument kontakta Air – Enheten för arkiv, informationshantering och registratur (arkiv@slu.se).
Observera att dokumentation av data som tagits fram vid SLU räknas som allmän handling och därför måste arkiveras. SLU:s e-arkiv är lämpligt för detta ändamål. Kravet på arkivering gäller även dokumentation som publiceras i repositorier och publikationer som registrerats i SLU:s publikationsdatabas. Rutiner för automatisk arkivering av publikationer från publikationsdatabasen är under utveckling.
Arkivera och bevara data
Som svensk myndighet måste SLU enligt lag arkivera allmänna handlingar, inklusive forskningsdata. Arkiveringen syftar till att hålla ordning på allmänna handlingar för att tillgodose forskningens behov samt att säkerställa allmänhetens rätt att ta del av allmänna handlingar (se "Offentlighetsprincipen" under Datahantering på laglig grund längre ned på den här sidan).
Varje institution har ansvar för att allmänna handlingar tas om hand om (registreras, beskrivs och lagras säkert). Prefekten har det övergripande ansvaret. Det operativa arbetet sköts av den person på institutionen som innehar registrerings- och arkiveringsrollen (RA-rollen). Prefekten kan tala om vem det är.
Varje medarbetare har ansvaret att göra arkiveringen möjlig. Den som i tjänsten hanterar exempelvis ansökningar, kontrakt och avtal, forskningsdata, rapporter och artiklar ska se till att de är möjliga att registrera och arkivera.
På SLU finns lokala arkiv (på en del av institutionerna och en del av fakulteterna), men forskningsdata ska arkiveras i SLU:s centrala e-arkiv. RA-rollen på din institution kan hjälpa dig registrera data, men överföringen till universitetets centrala e-arkiv behöver också inkludera SLU:s enhet för arkiv, informationshantering och registratur. Av dem kan du även få råd om bevarande av vetenskapliga data, som hur du beskriver dem och vilka filformat som är lämpliga för långtidsbevarande.
Om du publicerar data i Svensk nationell datatjänsts repositorium ingår arkivering vid SLU i processen.
Data är inte det enda som ska arkiveras inom venteskapliga projekt och undersökningar. Även till exempel ansökningar, kontrakt, avtal, datahanteringsplaner, rapporter och artiklar ska arkiveras.
För att filer ska gå att läsas även i framtiden behöver de sparas i lämpliga filformat, helst ett som är baserat på en öppen standard, är oberoende av en specifik programvara, och är öppet dokumenterat.
Läs mer om filformat för långtidsbevarande på Researchdata.se: Filformat.
Publicera och tillgängliggöra data
Att göra data öppet tillgängliga är ett effektivt sätt att sprida resultat från forskning och miljöanalys. Det gör det möjligt för andra forskare, myndigheter och företag att bygga vidare på redan genomförda studier i stället för att börja från början.
Öppna data ökar också synligheten för tillhörande publikationer. Studier visar att vetenskapliga artiklar som länkar till öppet tillgängliga dataset ofta citeras mer än andra artiklar.
Genom att dela data öppet stärker vi dessutom forskningens transparens och gör det lättare att granska, reproducera och vidareutveckla resultaten.
Datarepositorier är plattformar som lagrar och tillgängliggör vetenskapliga data på ett strukturerat, sökbart, pålitligt och långsiktigt hållbart sätt. Repositorier kan vara specifika för discipliner, domäner eller institutioner, eller vara generella.
I möjligaste mån bör data tillgängliggöras i repositorier som förser dem med en beständig identifierare (som en DOI – Digital Object Identifier). Företrädesvis bör ett certifierat repositorium användas.
Svensk nationell datatjänsts repositorium
SLU är med och driver forskningsinfrastrukturen Svensk nationell datatjänst (SND) som erbjuder ett kostnadsfritt datarepositorium som möter lagkrav och krav från exempelvis forskningsfinansiärer. SND:s datarepositorium kan hantera skyddsvärda data, inklusive personuppgifter (eftersom SLU har ett personuppgiftsbiträdesavtal med SND) och data som publiceras här tas arkiveras också vid SLU.
SND:s repositorium passar för många slags data och för många forskningsämnen, i och med att det finns stöd för olika ämnesprofiler.
Data som publiceras i SND:s repositorium synliggörs genom den nationella forskningsdataportalen Researchdata.se (och andra datakataloger och söktjänster som Google och Web of science).
SLU:s datahanteringsstöd erbjuder hjälp vid publicering hos SND.
Vilket datarepositorium som passar bäst beror vilken typ av data som ska publiceras. För data från vissa forskningsdiscipliner (exempelvis bioinformatik) kan ett ämnesanpassat repositorium vara att rekommendera.
På sidan re3data.org listas repositorier där du kan dela och hitta forskningsdata.
På researchdata.se finns en guide för att välja något av de repositorier som synliggör data på researchdata.se: Dela data: Snabbguide
När du väljer ett repositorium:
Kontrollera vad din finansiär och tidskrift rekommenderar och kräver för delning av data.
Använd om möjligt ett repositorium som förser data med en beständig identifierare som underlättar att hitta, referera till och återanvända datasetet.
Dataartiklar, eller data papers, är artiklar i sakkunniggranskade (peer-reviewed) vetenskapliga tidskrifter som beskriver dataset och de metoder som använts för att samla in data. Faktiska data lagras ofta i ett repositorium (se ovan) och länkas från dataartikeln. Att publicera en dataartikel kan öka möjligheterna för datamaterialet att nå en relevant publik och att få erkännande för de data du har samlat in och publicerat.
Du får inte publicera data öppet om de innehåller något av följande:
sekretessbelagd information, till exempel känsliga personuppgifter
material som är upphovsrättsskyddat, om inte tillstånd finns
företagshemligheter
Det är dock fortfarande möjligt, och ett krav enligt SLU:s policy, att publicera dokumentation och metadata. Det kan i många fall också vara möjligt att publicera delar av data öppet.
Kom ihåg att även data som inte kan publiceras öppet ska arkiveras. Om någon begär att få ett skyddsvärt dataset utlämnat sker alltid en sekretessprövning.
Data med personuppgifter
Du får publicera forskningsdata med personuppgifter som inte är känsliga, förutsatt att du i förväg har informerat forskningspersonerna om att det ska ske och förutsatt att det finns ett personuppgiftsbiträdesavtal mellan SLU och repositoriet ifråga.
SLU har ett personuppgiftsbiträdesavtal med Svensk nationell datatjänst. Det innebär att du kan deponera data hos dem även om de innehåller personuppgifter.
Om ett dataset innehåller känsliga personuppgifter kan det förses med begränsad åtkomst, medan dokumentation och metadata finns tillgängligt öppet. I många fall är det möjligt att publicera delar av data öppet, att diffusera eller aggregera uppgifter.
Tydliga villkor för hur data får användas underlättar återanvändningen av data och är därför en viktig del av FAIR-principerna (se Riktlinjer och vägledande principer).
FAIR-principerna rekommenderar att man sätter en licens, men licenser förutsätter att den som publicerar datamängden är upphovsrättsinnehavare. Data som sådana inte skyddas av upphovsrätten och licenser kan vara svåra att tillämpa på dataset. Det är dock möjligt att istället använda en så kallad märkning, som ger motsvarande information.
Vägledning och rekommendationer om licenser vid publicering av data finns i vår FAQ (på engelska):
Många forskningsfinansiärer ställer krav på att resultat och underliggande data från finansierade projekt ska göras öppet tillgängliga. Även vetenskapliga tidskrifter kräver i allt större utsträckning att data som ligger till grund för en publikation är öppet tillgängliga och länkade från artikeln. För SLU:s miljöanalys kan det dessutom finnas lagkrav på att tillgängliggöra data.
Sverige och övriga EU-länder har beslutat att data från offentligt finansierad forskning ska publiceras så öppet som möjligt men med begränsningar när det är nödvändigt av juridiska, etiska, säkerhetsmässiga eller kommersiella skäl.
Läs mer om SLU:s datahanteringspolicy och de riktlinjer och principer vi arbetar efter i avsnittet Riktlinjer och vägledande principer längre ned på sidan.
Återanvända data
Att återanvända data kan spara tid och resurser, göra det möjligt att validera studier och göra det möjligt att integrera dataset från olika studier och discipliner. Återanvändning kan också öppna möjligheter för nya samarbeten.
Det finns många sätt att upptäcka, söka efter och hitta data. Genom kolleger inom forskningsämnet, genom vetenskapliga artiklar och litteraturdatabaser, genom generella sökmotorer, och genom att söka direkt i olika datarepositorier och dataportaler.
Fundera över om de data du har hittat verkligen är användbara för dina behov.
Värdera data utifrån deras kvalitet och tillförlitlighet. Är källan tillförlitlig, används etablerade standarder, är data tillräckligt dokumenterade med avseende på när och hur de samlats in och bearbetats?
Kontrollera villkoren för användning och spridning och se till att du får alla nödvändiga tillstånd eller medgivanden.
Ge erkännande till dem som samlat in och tillgängliggjort data genom att citera sekundärdata på ett korrekt sätt, i likhet med hur du refererar till vetenskapliga artiklar. SLU-biblioteket har information om hur du refererar till data enligt SLU:s Harvard-stil:
En mängd olika lagar, förordningar och andra sorters regler har betydelse för datahantering på SLU, bland annat tryckfrihetsförordningen, offentlighets- och sekretesslagen, dataskyddsförordningen, arkivlagen och öppna datadirektivet. Att känna till de grundläggande bestämmelserna är viktigt för att kunna hantera vetenskapliga data från forskning och miljöanalys på ett ansvarsfullt sätt.
SLU är en myndighet och omfattas av offentlighetsprincipen. Av det följer att data från forskning och miljöanalys lämnas ut på begäran, eftersom de som regel är allmän handling. Undantaget är när det finns skäl för sekretess enligt offentlighets- och sekretesslagen. SLU:s jurister avgör om skäl för sekretess finns när begäran sker och den som begär ut allmäna handlingar har alltid rätt att få ett eventuellt avslag prövat.
Ett skäl för sekretees kan vara att data innehåller känsliga personuppgifter.
Vetenskapliga data är en av SLU:s viktigaste resurser och vi måste värna om dem. I hanteringen av data behöver du därför tänka på informationssäkerheten. Information från SLU ska vara riktig, tillgänglig för den som har rätt att se den men inte synas för obehöriga. Det betyder inte att vetenskapliga data alltid måste hållas konfidentiella, utan att vi behöver skydda dem för att undvika informationsförluster och dataintrång.
Behovet av skyddsnivå påverkas bland annat av vad som krävs för att återställa ett korrumperat dataset eller återskapa ett dataset som gått förlorat. Eftersom forskningsdata kan vara känsliga av olika skäl och i olika grad kan skyddsbehovet variera under arbetet med bearbetning och analys, när de ska tillgängliggöras och när de ska bevaras och arkiveras. Det kan till exempel finnas juridiska eller etiska skäl som hindrar att data görs öppet tillgängliga, som att data omfattas av upphovsrätt (exempelvis om de innehåller fotografier), sekretess (skydd av hotade arter, känsliga personuppgifter eller företagshemligheter). Sådan information kan behöva mer skydd medan den används aktivt, men den ska arkiveras på samma sätt som andra forskningsdata, med tydlig beskrivning.
Det första steget för att skydda data från forskning och miljöanalys är att göra en informationsklassning. Läs mer på medarbetarwebben (inloggning krävs): Informationsklassning
Läs mer om skyddsvärda data på Researchdata.se: Skyddsvärda data.
Personuppgifter är information som rör en identifierad eller identifierbar fysisk person. Data från forskning och miljöanalys innehåller personuppgifter oftare än man kan tro.
Det är dock inte något problem, SLU får samla in, använda och arkivera (långtidsbevara) personuppgifter så länge vi hanterar personuppgifterna på rätt sätt och har en så kallad ”rättslig grund” för hanteringen. Speciella krav ställs på hantering av känsliga personuppgifter, som till exempel information om en persons politiska åsikter. Bland annat krävs det en etikprövning för att använda känsliga personuppgifter i forskning.
Tänk på att ett datamaterial anses ha personuppgifter även om du har ersatt namn med ett ID och har kvar namnen internt. För att materialet inte längre ska innehålla personuppgifter krävs en anonymisering. Det innebär att koppling mellan data och individ omöjliggörs på ett oåterkalleligt sätt. Om det är möjligt att identifiera en person genom kompletterande information i exempelvis en kodnyckel eller ett register, räknas de som pseudonymiserade personuppgifter.
SLU:s datahanteringspolicy syftar till att öka kvalitet, spridning, genomslag och innovationskraft i universitetets forskning och miljöanalys. Policyn beskriver principer för datahantering vid SLU, bland annat gällande lagring, publicering och tillgängliggörande, och betonar vikten av god datahantering inom forsknings och miljöanalys.
Datahanteringspolicyn utgår bland annat från lagkrav och Sveriges nationella riktlinjer för öppen vetenskap.
Policyn säger till exempel att data från forskning och miljöanalys ska göras tillgängliga så öppet som möjligt, att FAIR-principerna ska följas och att nya projekt ska upprätta en datahanteringsplan.
Policyn gäller alla typer av digitala data som produceras och bearbetas inom forskning och miljöanalys vid SLU
SLU förordar öppen vetenskap, vilket bland annat utrycks i policyn för datahantering och policyn för vetenskaplig publicering.
SLU är också medlem i Svensk nationell datatjänst (SND) som är en nationell infrastruktur som hjälper forskare att göra alla typer av digitala forskningsdata tillgängliga, bland annat genom forskningsdataportalen Researchdata.se.
FAIR är en akronym för Findable, Accessible, Interoperable och Reusable – hittbara, tillgängliga, interoperabla och återanvändbara. FAIR-principerna syftar till att fungera som riktlinjer för att förbättra återanvändbarheten av vetenskapliga data och spelar en viktig roll i arbetet för öppen vetenskap.
Principerna publicerades ursprungligen i The FAIR Guiding Principles for scientific data management and stewardship (Wilkinson et al 2016) och har sedan dess fått brett stöd av forskargrupper, regeringar, finansiärer och utgivare.
SLU:s datahanteringspolicy anger att data från forskning och miljöanalys vid SLU ska vara FAIR i så stor utsträckning som möjligt. Den här introduktionsguiden och övriga vägledningar om datahantering utgår, där det är relevant, från FAIR-principerna. De är skrivna för att underlätta för forskare och miljöanalytiker att arbeta i enlighet med principerna. Vi har också en guide som ger tips direkt relaterade till FAIR-principerna:
SLU:s har en supportfunktion som stödjer medarbetare i frågor om datahantering inom forskning och miljöanalys. I teamet ingår expertis inom olika aspekter av datahantering samt inom vetenskaplig publicering, informationshantering, arkivering, IT, juridik, informationssäkerhet, forskning, miljöanalys och forskningsfinansiering.