Metadata
(oppdaget i 2013 av NSA/Snowden)
Hva er en metadatastandard?
- Første rad i et regneark?
- En 220 siders PDF?
- En pdf du må kjøpe fra ISO?
- En konseptuell modell?
- En ontologi?
Det uunngåelige skjer...
Men det er mye, mye verre...
Tabulære data
- Regneark er for flate metadatastrukturer
- Utfordring at kolonneoverskrifter er redigerbar tekst
- Betydningen av metadata må dokumenteres utenfor filen
- Eksempel fra datainnsamling av klimadata:
- Relativ like målinger av værfenomen fra ulike sensorer fører til 16000+ kolonner, selv om det i realiteten er noen hundre parametre!
- Krever alltid bearbeiding før import til database
- Eksempel fra Netflix
Konseptuell modell
- En øvre modell som koker ned domenet til dets mer abstrakte bestandsdeler
- CIDOC-CRM og EBU CCDM er eksempler
Ontologi
- "Gjennomførbar"modell basert på en konseptuell modell
- "Datamodell med regler"
- Er ofte i stand til utlede nye påstander basert på disse reglene
- I sin enkleste form, konsept hierarki med egenskaper som har domain og range
- Egenskapen har kjøpt (Person1 har kjøpt Produkt1)
- Domain: Aktør (Person er subklasse av Aktør)
- Range: Produkt
- Har bakgrunn i AI på nittitallet og benyttes fremdeles
Oppsummert
Datamodeller blir formaliserte i maskin-lesbare format
Domene-modeller blir likere etter generalisering / konseptuell analyse
Hvem tok dette bildet?
Metadata-prinsipp
- Facsimile
- Record
- En-til-en / 1:1
Facsimile
- Den originale ressursen er utgangspunktet
- Metadata om versjoner legges på katalogposten til originalen
- Fordeler:
- Versjonen arver metadata fra originalen
- Bruker finner all metadata samlet
- Ulemper
- Upresis metadata
Record
- Versjonen er utgangspunktet
- Beskrivelsen av originalen legges på katalogposten til versjonen
- Fordeler:
- Versjonen peker "bakover" til originalen
- Ulemper
- Fremdeles fokus på å samle metadata på ett sted
En til en / 1:1
- Én ressurs, én beskrivelse
- Bakrunnen er Dublin Core og beskrivelse av ressurser på nettet. Ønske om én URL per ting.
- Bruker lenking til å lage en struktur
- Fordeler:
- Presis metadata (eksempel)
- Ulemper
- Kompleksitet flyttet til strukturen
Hvorfor er dette viktig?
- Metadata skal registreres i dumme datamaskiner
- Dataprogrammer må ha entydige entiteter og relasjoner
- Vi må "pakke opp" og klargjøre implisitte relasjoner og betydninger
- Ikke blande presentasjon, brukergrensesnitt og datamodell
Typer av metadata
- Deskriptiv
- Strukturell
- Adminitrativ
- Teknisk
- Rettigheter
- Preservering
Deskriptiv metadata
- Beskrivelse og identifikasjon
- Tidligere en manuell prosess, men alle håper vel at AI/ML overtar
- NB har 80% "suksess" på automatisk klassifisering, bedre enn manuell (på tekst-ressurser)
Strukturell metadata
- Tidligere gjaldt dette dokumentets interne struktur
- Kapitler, sider
- HTML er strukturell metadata <p>, <section>, osv.
- I 1:1-modellen er det strukturelle metadata som kobler dokument, versjoner, skaper, m.m.
Administrativ metadata
- Teknisk
- EXIF, XMP
- Ofte metadata "embedda" i filen
- Preservation
- Metadata knyttet til langtidsbevaring, "consistency checks"
- Rettigheter
- Bruk av materialet
- For eksempel Creative Commons lisenser
Hva vil vi med vår metadata?
Enkle søk?
Avanserte søk?
Lage entydige koblinger til entiteter og konsept?
Automatisere prosesser?
Dokumentere produksjoner?
Analyser?
Metadata-basert dataflyt
MASTER
DLR
MAM
Kanaler
KK
Redaksjon
KK
Metadata-basert dataflyt II
MASTER
DLR
MAM
Metadata
Player
Redaksjon
KK
metadata-llor-kk
By Tarje Lavik
metadata-llor-kk
- 403