Upload
university-library-uit
View
51
Download
5
Embed Size (px)
Citation preview
Strukturer og dokumenter
dine forskningsdata
Philipp Conzett
Universitetsbiblioteket
Tirsdag 5. september 2017
Lær å håndtere forskningsdataene dine etter beste praksis!
The Lifecycle of Research Data Management
Phases:
Collecting
Processing
Læringsmål for denne modulen
• Forstå hvorfor det er viktig med god strukturering og dokumentasjon av
forskningsdata
• Vite hvordan strukturere og dokumentere forskningsdata på en
bevaringsverdig måte
• Vite hvor du kan finne mer informasjon og få hjelp
Avbryt og spør underveis dersom du lurer på noe, eller ønsker å
kommentere noe!
Hvorfor?
Hvordan?
Tommelfingerregel: Andre, inkludert deg selv, skal kunne forstå og
anvende dataene dine mange år fra nå.
Tips: Tenk strukturering og dokumentasjon av data fra dag 1 i
datainnsamlings- og planleggingsfasen. Omstrukturering og omformatering i
ettertid kan være tidkrevende og kjedelig.
Hjelp: Bruk UiT Open Research Dataset Guidelines
(site.uit.no/opendata/kom-i-gang/)
De viktigste elementene:
• Datalagring
• Navngivning av filer og mapper
• Filformat
• Beskrivelse av filer og deres innhold
Datalagring
Gode lagringsrutiner
Unngå tap av data ved å etablere gode lagringsrutiner:
• Regelmessige sikkerhetskopier
• Flere sikkerhetskopier:
– «Here»: f.eks. på datamaskinen din
– «Near»: f.eks. på hjemmeområdet ditt på UiT (\\homer.uit.no)
– «Far»: f.eks. i en skytjeneste som myDoc/OneDrive på UiT
(https://mydoc.uit.no/)
• På et delingsområde, f.eks. uDoc på UiT (https://udoc.uit.no/)
• Versjonering = holde rede på endringer
Se Forskingsdataportalen under «Arbeida med aktive forskingsdata»:
https://uit.no/forskningsdata.
Navn på filer og mapper
Noen grunnleggende råd for navngiving:
• Bruk konsistente filnavn
• Filnavn bør fortelle noe om innholdet, men likevel være korte (< 25 tegn)
• Bruk “underscores” ( _ ) i stedet for mellomrom
• Unngå spesialtegn som “ / \ : * . ? ‘ < > [ ] ( ) & $ æÆ øØ åÅ ...
• Bruk internasjonalt format på datoer: ÅÅÅÅ-MM-DD
Mulige struktureringsstrategier:
• Sortert etter dato
• Sortert etter innhold
• Sortert etter filtype
• Tvungen sortering med hjelp av nummerering
Mappenavn og -struktur:
• Hovedstrukturen bør gjenspeiles i filnavna
• Velg konsistent struktur, og dokumenter den i ei ReadMe-fil
Dokumentasjon / metadata: ReadMe-filer
ReadMe-fil = beskrivelse av datasettet, veiledning til data
Anbefalinger for ReadMe-filer:
• Start å dokumentere tidlig
• Beskriv
– kontakt informasjon
– hva datasettet handler om
– filstruktur og regler for navngiving
– hvor en finner hvilke data = oversikt over filene
– metode og framgangsmåte
– kolonneoverskrifter i tabeller
– forkortelser
– måleenheter
– ...
• Lagre som Unicode UTF-8-tekstfil (.txt) eller PDF/A
• Avklar spesifikke metadatakrav (fag, arkiv, finansiør ...)
Eksempel på ReadMe-fil
Project: Kristin’s important chemistry project
Date: June 2013-April 2014
Description: Description of my awesome project here
Funder: Department of Energy, grant no: XXXXXX
Contact: Kristin Briney, [email protected]
ORGANIZATION
All files live in the ‘ImportantProject’ folder, with content organized into subfolders as follows:
• ‘RawData’: All raw data goes into this folder, with subfolders organized by date
• ‘AnalyzedData’: Data analysis files
• ‘Documentation’: Scanned copies of my written research notes and other research notes
• ‘Miscellaneous’: Other information that relates to this project
(Tilpassa fra README.txt, http://dataabinitio.com/?p=378)
Eksempel på ReadMe-fil (forts.)
COLUMN HEADINGS AND ABBREVIATIONS
Explanation of column headings used in DataFile01
• H1 contains ...
• H2 contains ...
Explanation of abbreviations used in DataFile01:
• A1 means ...
• A2 means ...
NAMING
Raw data files will be named as follows:
“YYYY-MM-DD_experiment_sample_ExpNum”
(ex: “2014-02-24_UVVis_KMnO4_2.txt”)
(Tilpassa fra README.txt, http://dataabinitio.com/?p=378)
Klargjøring for arkivering
Gjør dataene klare for arkivering:
• Utvalg
• Ikke ta bort negative data
• Ta med råversjon og behandla data
• Både originalfila og i arkivverdig filformat
Arkivverdige (persistente) filformat er vanligvis
• ikke-proprietære,
• åpne, og følger dokumenterte internasjonale standarder,
• brukt av store deler av forskningsmiljøet,
• bruker standard tegnkoding (f.eks. ASCII, UTF-8), og
• er ikke komprimerte
Arkivering: Arkivverdige filformat
Arkivverdige filformat for vanlige dokumenttyper:
Mer informasjon i våre UiT Open Research Dataset Guidelines
Dokumenttype Ikke-arkivverdig format (eksempler)
Arkivverdig format
Tekst MS Word (.docx) PDF/A
Regneark MS Excel (.xlsx) TabulatorseparertUnicode-UTF-8-tekst (.txt)
Bilde Windows Bitmap (.bmp) Ukomprimert TIFF
Lyd AAC (.m4a) WAV
Video Quicktime (.mov) MPEG-4
Databaser MS Access (.accdb) XML ellertabulatorseparertUnicode-tekst (.txt)
Konvertering til arkivverdig filformat
Fra .xlsx til .txt i Excel 2016:
• (Ev. på bærbar maskin: Klikk først på Flere alternativ rett under filtypefeltet, der det står Excel-arbeidsbok (*.xslx))
• Velg Fil > Lagre som > Velg mappe
• I feltet Lagre som filtype velg Tekst (tabulatordelt) (*.txt)(NB! Ikke velg Unicode-tekst (*.txt))
• Under verktøy velg Nettalternativ
• Velg fana Koding
• I feltet Lagre dette dokumentet som velg Unicode (UTF-8), og klikk på OK
• Velg fana Skrifter
• I ruta Tegnsett velg Flerspråklig/Unicode/annet skript, og klikk på OK
• Klikk på Lagre
• Bekreft med Ja
Oppgave/diskusjon
• Hva slags data og filtyper bruker du i forskinga di?
• Hvordan kan datafilene dine konverteres til arkivverdig(e) format?
Ta en titt på våre retningslinjer for datasett:
http://site.uit.no/opendata/kom-i-gang/
10 min.
16
Mer info og hjelp:
Forskningsdatapotalen på UiT:
https://uit.no/forskningsdata
E-post:
Klar for arkivering!
Kursmodulen Del dine forskningsdata
18
Fyll ut evalueringsskjemaet vårt!
bit.ly\ubevalno
Navn på underviser: Datagruppa
Dato: 5.9.2017
Tittel på kurs: Forskningsdata
TAKK OG LYKKE TIL!