Metadata

(oppdaget i 2013 av NSA/Snowden)

Hva er en metadatastandard?

Det uunngåelige skjer...

Men det er mye, mye verre...

Tabulære data

  • Regneark er for flate metadatastrukturer
  • Utfordring at kolonneoverskrifter er redigerbar tekst
  • Betydningen av metadata må dokumenteres utenfor filen
  • Eksempel fra datainnsamling av klimadata:
    • Relativ like målinger av værfenomen fra ulike sensorer fører til 16000+ kolonner, selv om det i realiteten er noen hundre parametre!
  • Krever alltid bearbeiding før import til database
  • Eksempel fra Netflix

Konseptuell modell

  • En øvre modell som koker ned domenet til dets mer abstrakte bestandsdeler
  • CIDOC-CRM og EBU CCDM er eksempler

Ontologi

  • "Gjennomførbar"modell basert på en konseptuell modell
  • "Datamodell med regler"
  • Er ofte i stand til utlede nye påstander basert på disse reglene
  • I sin enkleste form, konsept hierarki med egenskaper som har domain og range
  • Egenskapen har kjøpt (Person1 har kjøpt Produkt1)
    • Domain: Aktør (Person er subklasse av Aktør)
    • Range: Produkt
  • Har bakgrunn i AI på nittitallet og benyttes fremdeles

Oppsummert

Datamodeller blir formaliserte i maskin-lesbare format

Domene-modeller blir likere etter generalisering / konseptuell analyse

Hvem tok dette bildet?

Metadata-prinsipp

  • Facsimile
  • Record
  • En-til-en / 1:1

Facsimile

  • Den originale ressursen er utgangspunktet
  • Metadata om versjoner legges på katalogposten til originalen
  • Fordeler:
    • Versjonen arver metadata fra originalen
    • Bruker finner all metadata samlet
  • Ulemper
    • Upresis metadata

Record

  • Versjonen er utgangspunktet
  • Beskrivelsen av originalen legges på katalogposten til versjonen
  • Fordeler:
    • Versjonen peker "bakover" til originalen
  • Ulemper
    • Fremdeles fokus på å samle metadata på ett sted

En til en / 1:1

  • Én ressurs, én beskrivelse
  • Bakrunnen er Dublin Core og beskrivelse av ressurser på nettet. Ønske om én URL per ting.
  • Bruker lenking til å lage en struktur
  • Fordeler:
  • Ulemper
    • Kompleksitet flyttet til strukturen

Hvorfor er dette viktig?

  • Metadata skal registreres i dumme datamaskiner
  • Dataprogrammer  ha entydige entiteter og relasjoner
  • Vi må "pakke opp" og klargjøre implisitte relasjoner og betydninger
  • Ikke blande presentasjon, brukergrensesnitt og datamodell

Typer av metadata

  • Deskriptiv
  • Strukturell
  • Adminitrativ
    • Teknisk
    • Rettigheter
    • Preservering

Deskriptiv metadata

  • Beskrivelse og identifikasjon
  • Tidligere en manuell prosess, men alle håper vel at AI/ML overtar
    • NB har 80% "suksess" på automatisk klassifisering, bedre enn manuell (på tekst-ressurser)

Strukturell metadata

  • Tidligere gjaldt dette dokumentets interne struktur
    • Kapitler, sider
    • HTML er strukturell metadata <p>, <section>, osv.
  • I 1:1-modellen er det strukturelle metadata som kobler dokument, versjoner, skaper, m.m.

Administrativ metadata

  • Teknisk
    • EXIF, XMP
    • Ofte metadata "embedda" i filen
  • Preservation
    • ​Metadata knyttet til langtidsbevaring, "consistency checks"
  • Rettigheter
    • Bruk av materialet
    • For eksempel Creative Commons lisenser

Hva vil vi med vår metadata?

Enkle søk?

Avanserte søk?

Lage entydige koblinger til entiteter og konsept?

Automatisere prosesser?

Dokumentere produksjoner?

Analyser?

MS Fnd in a Lbry?

 

Metadata-basert dataflyt

MASTER

DLR

MAM

 

 

 

Kanaler


KK

Redaksjon

KK

Metadata-basert dataflyt II

MASTER

DLR

 

MAM

 

Metadata

Player

Redaksjon

KK

metadata-llor-kk

By Tarje Lavik

metadata-llor-kk

  • 403