la science des données aux bibliothèques universitaires

background image: https://www.elastica.net/

data science in academic libraries

Catie (Catelynne) Sahadath | 2016.03.11

La science des données est une spécialisation en développement dans les bibliothèques universitaires.

 

SVP décrire une ou plusieurs tendances qui se déroulent dans ce domaine qui influencera de façon significative les activités de recherche des universités.

Data science is a growing area of expertise in academic libraries.

 


Please tell us about one or more trends taking place in this field that will have a significant impact on research activities of universities.

Data Science

=

Using data to answer questions.

The private sector uses data science with the goal of increasing profits.

In academia data science is used to answer research questions.

Les universités canadiennes sont guidées par les trois organismes:

L'impact du CRSH sur la science des données aux universités

En 2009 une recherche de l'ABRC  a trouvé que

3/110

recherches financées par le CRSH ont archivé leurs données de recherche dans un dépôt

 

(et les 3 ensembles de données étaient archivées dans des dépôts Américains)

CARL. CARL. Research Data: Unseen Opportunities, 2009.

En 2014 le CRSH lance sa

Politique sur l'archivage des données de recherche

"...chercheurs subventionnés par le gouvernement ont le devoir de transparence et l'obligation de rendre compte de leurs résultats de recherche."

CRSH. CRSH. Politique sur l'archivage des données de recherche. 2014.

"Toutes les données de recherche
rassemblées grâce au financement du CRSH
doivent être conservées et
mises à la disposition des autres chercheurs
dans des délais raisonnables."

CRSH. CRSH. Politique sur l'archivage des données de recherche. 2014.

2 ans

non défini

The internet is not a transparency machine.

 

Data can be online and still be opaque.

Example:

CHILDES and CLAN

CHILDES is a database of child language acquisition data used by linguists.

It is maintained by Carnegie Mellon University.

  • Data on CHILDES are freely and openly available on line
  • Researchers can contribute child language acquisition data to CHILDES
  • Data file extensions *.cha, looks like .txt
  • To use the .cha data in CHILDES researchers need CLAN software

CLAN software

  • Created and maintained by Carnegie Mellon University
  • Used for analysis of *.cha data from CHILDES
  • Can only analyze *.cha files
  • Command line programming/ shell script for analysis

Can I use other programs like NVivo or SAS to analyze *.cha data?

 

nope.

Can I combine *.cha data sets with other relevant data sets for analysis?

 

nope.

Can I still analyze the data without an above average knowledge of shell scripts and commands?

 

nope.

Would this data be more accessible in an interoperable file format, such as .txt?

 

absolutely.

There are ways to make data on the Internet more open.

Tim Berners-Lee has suggested a rating system for open data, based on a 5-star schema

make your stuff available on the Web in any format

make it available as structured data

make it available in a non-proprietary open format

use URIs to denote things

link your data to other data to provide context

 

Not necessarily open. Maybe proprietary.

Adapted from 5stardata.info

Sometimes proprietary or closed-source file extensions aren't necessarily a problem because they're so ubiquitous

(E.g. .doc, .xls, .pdf)

Lots of existing research data are in proprietary or closed formats.

No one tells us not to do this.

Peter E. Hallett, 2003, "Hallett, P.E. Farmed Solitary Bees and Wasps. ", http://hdl.handle.net/10864/10110 American Bee Journal [Distributor] V8 [Version]

Le CRSH n'a pas une politique qui impose une méthode pour rendre les données ouvertes.

Mais aujourd'hui je n'argumente pas pour une politique révisée.

 

Et je n'argumente pas pour ou contre l'open source.

Parce que si la politique change ou si la politique ne change pas, les données existantes sont toujours dans leurs formats propriétaires.

Comment est-ce ça influencera de façon significative les activités de recherche des universités?

1. Les chercheurs auront besoin d'accès aux logiciels propriétaires pour réutiliser les données de recherche

Par example, si un chercheur voudrait analyser des données linquistiques de CHILDES, il devrait avoir accès au logiciel CLAN.

2. Les chercheurs auront besoin de la formation aux logiciels propriétaires pour utiliser les données de recherche

Par example, l'utilisation du CLAN dépend sur une conaissance des commandes et fonctions du logiciel.

3. Les chercheurs auront besoin de la formation dans la normalisation​ des données pour utiliser les données dans les formats divers

Par example, si on voudrait comparer les données linguistiques du CHILDES avec des autres ensembles de données pour fair de la recherche interdisciplinaire, on devrait manipuler les formats des données pour les utiliser ensemble.

Think of it this way

Pensez-y de cette façon

 

Who owns a VCR?

Qui parmi vous possède un magnétoscope?


Let's say someone is handing out free VHS tapes on the street.

Those VHS tapes are only good for those of you who:

  • have access to a VCR
  • know how to use the VCR (e.g. press play, etc)
  • know how to use the VHS tape (e.g. rewind when it comes to the end)

Open data sets are similar.

They are only useful for researchers who:

  • have access to software to open them
  • know how to use the software to open them
  • know how to manipulate the data

SSHRC encourages researchers to approach academic libraries for assistance with research data management.

This means academic libraries will need to be positioned to provide access to the software and training researchers will need to reuse existing research data sets.

En bref:

  • Le CRSH a un mandat pour l'archivage des données
  • Il n'existent pas des exigences qui disent comment rendre les données accessibles
  • Les données de recherche en ligne peut-être ou peut-être pas interopérable
  • Par conséquent les chercheurs peuvent attendre des difficultés accéder quelques  données

In sum:

  • SSHRC has mandated timely data archiving
  • There are no existing requirements for how to make data available
  • This means research data available online may or may not be interoperable
  • As a result, researchers can expect challenges in accessing some data

This is one of many trends in data science academic libraries need to prepare for.

Questions

Thank you!

Merci!

Data Science: Trends

By Catie Sahadath

Data Science: Trends

  • 680