Mikel Egaña Aranguren
Candidato Ayudante Doctor
Dpto. Ciencia de la Computación e Inteligencia Artificial UPV/EHU
http://mikel-egana-aranguren.github.io
mikel.egana.aranguren@gmail.com
Meritos preferentes
Estancias en centros diferentes a UPV/EHU
Experiencia laboral y becas
Experiencia laboral
(2015 - Presente) Analista Eurohelp Consulting, S.L.
(2014-2015) Investigador UPV/EHU
(2011-2014) Investigador UPM
(2009) Investigador UM
(2006) Investigador pre-doc VIB, Bélgica
(2005-2009) Doctorado Universidad de Manchester, UK
Becas
Marie Curie Cofund Postdoc (UE): 2011 - 2014
Marie Curie EST Predoc (UE): 2006
EPSRC/Universidad de Manchester Doctorado (UK): 2005 - 2008
Erasmus (UE, BBK), Canterbury Christ Church, UK: 2001
Torres Quevedo (MINECO): 2015 - 2018
Méritos de investigación
Visitas de investigación
2005 European Bioinformatics Institute (UK)
Financiado por Network of Excellence on Semantic Interoperability and Data Mining in Biomedicine (EU)
Desarrollo Gene Ontology
Participación en proyectos
2016 – 2020 (Ongoing). REPLICATE: Renaissance of Places with Innovative Citizenship And TEchnology (Project 691735). EU. (Consortium: 24M EUR; Eurohelp: 300.000 EUR)
2015 – 2018 (Ongoing). Linking Open Domains, Plataforma para la generación de datos enlazados (LODGen). Ministerio de Industria, Energia y Turismo, Spain (TSI-100105-2015-0012). (40.000 EUR)
2016 – 2017 (Ongoing). Servicios OpenLinkedData (Linked Data implementation of Open Data Euskadi). Basque Government, Spain. (90.000 EUR)
2015 Analista en proyecto ENGIMU (Enlazando Gipuzkoa con el Mundo), financiado por Gipuzkoako Foru Aldundia, 40.000€
Publicaciones en revistas JCR
Aranguren, M., Bechhofer, S., Lord, P., Sattler, U., and Stevens, R. (2007). Understanding and using the meaning of statements in a bio-ontology: recasting the Gene Ontology in OWL. BMC bioinformatics, 8(1):57
[Factor Impacto: 2.58]
Stevens, R., Egaña Aranguren, M., Wolstencroft, K., Sattler, U., Drummond, N., Horridge, M., and Rector, A. (2007). Using OWL to model biological knowledge. International Journal of Human-Computer Studies, 65(7):583–594
[Factor Impacto: 1.293]
Egaña Aranguren, M., Wroe, C., Goble, C., and Stevens, R. (2008). In situ migration of handcrafted ontologies to reasonable forms. Data & Knowledge Engineering, 66(1):147–162
[Factor Impacto: 1.115]
Antezana, E., Egaña, M., De Baets, B., Kuiper, M., and Mironov, V. (2008b). ONTO-PERL: an API for supporting the development and analysis of bio-ontologies. Bioinformatics, 24(6):885
[Factor Impacto: 4.981]
Aranguren, M., Antezana, E., Kuiper, M., and Stevens, R. (2008a). Ontology Design Patterns for bio-ontologies: a case study on the Cell Cycle Ontology. BMC bioinformatics, 9(Suppl 5):S1
[Factor Impacto: 2.58]
Antezana, E., Blondé, W., Egaña, M., Rutherford, A., Stevens, R., De Baets, B., Mironov, V., and Kuiper, M. (2009a). BioGateway: a semantic systems biology tool for the life sciences. BMC bioinformatics, 10(Suppl 10):S11
[Factor Impacto: 2.58]
Antezana, E., Egaña, M., Blondé, W., Illarramendi, A., Bilbao, I., De Baets, B., Stevens, R., Mironov, V., and Kuiper, M. (2009b). The Cell Cycle Ontology: an application ontology for the representation and integrated analysis of the cell cycle process. Genome Biology, 10(5):R58
[Factor Impacto: 10.8]
Minarro-Gimenez, J., Egana-Aranguren, M., Villazon-Terrazas, B., and FernandezBreis, J. (2012). Publishing Orthology and Diseases Information in the Linked Open Data Cloud. Current Bioinformatics, 7(3):255–266
[Factor Impacto: 0.971]
Mironov, V., Antezana, E., Egaña, M., Blondé, W., De Baets, B., Kuiper, M., and Stevens, R. (2011). Flexibility and utility of the Cell Cycle Ontology. Applied Ontology, 6(3):247–261
[Factor Impacto: 0.615]
Miñarro-Gimenez, J., Aranguren, M., Béjar, R., Fernández-Breis, J., and Madrid, M. (2011). Semantic integration of information about orthologs and diseases: The OGO system. Journal of biomedical informatics, 44:1020–1031
[Factor Impacto: 2.126]
Egaña Aranguren, M., Fernández-Breis, J. T., Antezana, E., Mungall, C., Rodríguez González, A., and Wilkinson, M. D. (2013). OPPL-Galaxy, a Galaxy tool for enhancing ontology exploitation as part of bioinformatics workflows. Journal of biomedical semantics, 4(1):2
[Factor Impacto: 2.24]
Duque-Ramos, A., Fernández-Breis, J. T., Iniesta, M., Dumontier, M., Egaña Aranguren, M., Schulz, S., Aussenac-Gilles, N., and Stevens, R. (2013). Evaluation of the OQuaRE framework for ontology quality. Expert Systems with Applications, 40(7):2696–2703.
[Factor Impacto: 2.26]
Aranguren, M. E., González, A. R., and Wilkinson, M. D. (2014). Executing SADI services in Galaxy. Journal of Biomedical Semantics, 5(1):42+.
[Factor Impacto: 2.26]
José Antonio Miñarro Giménez, Mikel Egaña Aranguren, Boris Villazón Terrazas, and Jesualdo Tomás Fernández Breis (2014). Translational research combining orthologous genes and human diseases with the OGOLOD dataset. Semantic Web Journal, 5(2):145–149
[Factor Impacto: 1.786]
González, A. R., Callahan, A., Toledo, J. C., García, A., Aranguren, M. E., Dumontier, M., and Wilkinson, M. D. (2014a). Automatically exposing OpenLifeData via SADI semantic Web Services. Journal of Biomedical Semantics, 5(1):46+
[Factor Impacto: 2.26]
Pawluczyk, M., Weiss, J., Links, M. G., Aranguren, M. E., Wilkinson, M. D., and Egea-Cortines, M. (2015). Quantitative evaluation of bias in PCR amplification and Next Generation Sequencing derived from metabarcoding samples. Analytical and Bioanalytical Chemistry, 407(7):1841–1848
[Factor Impacto: 3.436]
Mikel Egaña Aranguren, Mark D. Wilkinson (2015). Enhanced reproducibility of SADI Web service workflows with Galaxy and Docker. GigaScience, 4(59)
[Factor Impacto: 7.46]
3.- Semantics: what the data means
2.- Functional: what I did with the data
1.- Computational: how I did it
Analytical and Bioanalytical Chemistry (1), GigaScience (1), Genome Biology (1)
BMC Bioinformatics (3), Bioinformatics (1), Current Bioinformatics (1), Journal of Biomedical Informatics (1)
Journal of Biomedical Semantics (3)
Semantic Web Journal (1), Internationl Journal of Human Computer Studies (1), Data and Knowledge Engineering (1), Applied Ontology (1), Expert Systems With Applications (1)
Capítulos en libros
Aranguren, M., Stevens, R., Antezana, E., Fernández-Breis, J.T., Kuiper, M., and Mironov, V. (2010). Technologies and Best Practices for Building Bio-Ontologies. In Knowledge-Based Bioinformatics, volume Gil Alterovitz and Marco Ramoni (Eds.), pages 67–86. Wiley Online Library
Editor
Mikel Egaña Aranguren, Jesualdo Tomás Fernández Breis, and Michel Dumontier (2014). Special issue on Linked Data for Health Care and the Life Sciences. Semantic Web Journal, 5(2):99–100
Ponencias en congresos
González, A. R., Romero, M. M., Aranguren, M. E., and Wilkinson, M. D. (2014b). Nanopublishing clinical diagnoses: tracking diagnostic knowledge base content and utilization. In 27th International Symposium on Computer-Based Medical Systems (CBMS), pages 335–340
Iglesias, A. R., Aranguren, M. E., González, A. R., and Wilkinson, M. D. (2013). Plant Pathogen Interactions Ontology (PPIO). In Rojas, I. and Guzman, F. M. O., editors, IWBBIO, pages 695–702. Copicentro Editorial
Aranguren, M., Fernández-Breis, J., and Antezana, E. (2011). OPPL-Galaxy: enhancing ontology exploitation in galaxy with OPPL. In Proceedings of the 4th International Workshop on Semantic Web Applications and Tools for the Life Sciences, pages 12–19. ACM
Miñarro-Giménez, J., Aranguren, M., García-Sánchez, F., and Fernández-Breis, J. (2010). A semantic query interface for the OGO platform. In Information Technology in Bio-and Medical Informatics, ITBAM 2010, pages 128–142. Springer
Egaña, M., Rector, A., Stevens, R., and Antezana, E. (2008). Applying ontology design patterns in bio-ontologies. In Gangemi, A. and Euzenat, J., editors, Knowledge Engineering: Practice and Patterns, volume 5268 of Lecture Notes in Computer Science, pages 7–16. Springer
Charlas invitadas
Los Datos Enlazados y la Web Semántica. Tikitalka, VE Interactive, Spain, 2016
Building reasonable biomedical ontologies for a Life Sciences Semantic Web. 3S (Systems, Synthetic, and Semantic) Biology summer school. CIBIO (Centre for Integrative Biology), University of Trento, Italy, 2014
Linked Data for Functional Genomics. NTNU, Trondheim, Norway, 2011
Aplicación de la Web Semántica en Biología Molecular. Universidad de Deusto, Facultad de Ingenieria, Spain, 2010
Aplicación de la Web Semántica en Bioinformática. UM, Facultad de Informática, Spain, 2008
Métodos y resultados actuales en Bioinformática: know-how y know-what de las redes tecnocientíficas en Bioinformática. EHU, Facultad de Filosofia, Spain, 2004
Revisor
2015 BMC Medical Informatics and Decision Making
2013 PeerJ
2013 Data and Knowledge Engineering (DKE)
2012 BMC Bioinformatics
2012 Journal of Biomedical Informatics (JBI)
2012 Computational and Mathematical Methods in Medicine (CMMM)
2012 Journal of Medical Systems (JOMS)
2012 Journal of Biomedical Semantics (JBS)
2011 Semantic Web Journal (SWJ)
2011 Journal of Research and Practice in Information Technology (JRPIT)
Comité científico
2017 Semantic Web Solutions for Large-Scale Biomedical Data Analytics (SeWeBMeDA)
2015 CAEPIA
2012 Managing Interoperability and compleXity in Health Systems, in conjunction with the ACM International Conference on Information and Knowledge Management
2012 Joint Workshop on Semantic Technologies Applied to Biomedical Informatics and
Individualized Medicine (SATBI + SWIM 2012), in conjunction with International Semantic Web Conference (ISWC)
2011 Managing Interoperability and compleXity in Health Systems, in conjunction with the ACM International Conference on Information and Knowledge Management
2011 Knowledge Capture (K-CAP)
2011 Semantic Applied Technologies on Biomedical Informatics (SATBI 2011), in
conjunction with the ACM International Conference on Bioinformatics and Computational Biology
2008 ONTORACT
Métricas de producción científica
H-index (Google Scholar): 14
H-index (Scopus): 8
Citas totales (Google Scholar): 717
Perfiles de interés
GitHub: http://github.com/mikel-egana-aranguren
Google Scholar: http://scholar.google.com/citations?user=JsMMKnoAAAAJ
Scopus: http://www.scopus.com/authid/detail.url?authorId=16038705500
[Más información en https://mikel-egana-aranguren.github.io]
Meritos docentes y de gestión
Experiencia docente
Postgrado
2017 Life Sciences Semantic Web. MSc Bioinformatics, UM. Spanish
2016 Life Sciences Semantic Web. MSc Bioinformatics, UM. Spanish
2015 Life Sciences Semantic Web. MSc Bioinformatics, UM. Spanish
2014 Galaxy tutorial. Erasmus mundus MSc in Marine Environment and resources, UPVEHU. English
2014 Life Sciences Semantic Web. MSc Bioinformatics, UM. Spanish
2013 Life Sciences Linked Data. MSc Bioinformatics, UM. Spanish
2011 Web Ontology Language (OWL), Artificial Intelligence MSc (UPM). English
Grado
2012 OWL, as part of ATHENS course (UPM). English
2012 OWL, as part of ATHENS course (UPM). English
2011 OWL, as part of ATHENS course (UPM). English
2011 OWL/Description Logics, as part of the Artificial Intelligence course (UPM). Spanish
Misc.
2016 Linked Open Data tutorial. EJIE. Spanish
2015 Linked Open Data tutorial. IZFE (Informatika Zerbitzuen Foru Elkartea, Gipuzkoa). Spanish
2014 Semantic biology tutorial: Use of Semantic Web resources for knowledge discovery. 3S (Systems, Synthetic, and Semantic) Biology summer school. CIBIO (Centre for Integrative Biology), University of Trento, Italy. English
2013 Introductory talk on bioinformatics for high school students visiting the CBGP. Spanish
2013 Galaxy tutorials at CBGP. English and spanish
2011 Populous tutorial at SWAT4LS (London, UK), English
2005-2008 OWL tutorials for biologists (University of Manchester, UK). English
Tribunales doctorado
2014 Alejandro Rodríguez Iglesias, “FAIR approaches applied to unraveling plantpathogen interactions data and RNA processing evolution”, UPM, Spain
2013 Meifania Monica Chen, “Lipoprotein Ontology: A Formal Representation of Lipoproteins", Curtin University, Australia
2012 Jose Antonio Miñarro-Gimenez, “Entorno para la gestion semantica de informacion biomedica en investigacion traslacional". UM, Spain
2011 Doris Meja Avila, “Estrategia de interoperabilidad semantica en el contexto de integracion de conocimiento geografico y ambiental. Caso de aplicacion: Biodiversity Ontology". UPM, Spain
Supervisión estudiantes
2015 Salvador Alonso Martnez, “Imagen Docker para pipelines de Metagenomica", Bioinformatics MSc project. UM, Spain
2017 Denis Mishel Uchuari, prácticas externas, Grado en Ingeniería Informática de Gestión y Sistemas de Información, UPV/EHU
Divulgación
Software libre (GNU/linux) para biólogos. BioGaia 3, 2003 (Colegio Oficial de Biólogos de Euskadi).
¿Qué puede hacer la web semántica por la biología? BioGaia 7, 2009 (Colegio Oficial de Biólogos de Euskadi).
Meritos académicos
Estudios de postgrado
2009 Doctorado en informática, Universidad de Manchester, UK. Nota final: minor corrections
2004 Máster bioinformática, Universidad de Manchester, UK. Nota final: distinction
Estudios de grado
2003 Licenciatura biología UPV/EHU
2001 Estancia erasmus en Canterbury Christ Church University College, UK
Idiomas
Inglés
Nivel alto, hablado y escrito
Certificado IELTS 7,5 (== C2)
Uso continuo durante estancia erasmus, master, doctorado, postgrado Marie Curie, congresos, docencia, etc.
Euskara
Nivel alto, hablado y escrito
EGA, HABE 3 (== C1)
Programa docente
Minería de datos
Programa teórico
1.- Introducción
Panorama general de la minería de datos
Aplicaciones actuales
Clasificación de técnicas de análisis de datos
2.- Nociones teóricas básicas
Correlación y causalidad
Aprendizaje supervisado y no supervisado
“Underfitting vs overfitting”
“Bias vs variance”
“Curse of dimensionality”
3.- Aspectos metodológicos de un proceso típico de análitica de datos
Organización de un proyecto de manera rigurosa, documentada y reproducible
Fases: limpieza y filtrado, exploración, construcción de modelo, generación de resultados y optimización, validación
Aspectos prácticos a tener en cuenta
4.- Clasificadores basados en distancias: KNN
Funcionamiento básico
Ejemplos prácticos de aplicaciones
5.- Clasificación no supervisada: Clustering
Funcionamiento básico y algoritmos de clustering más comunes
Ejemplos prácticos de aplicaciones
6.- Redes bayesianas
Introducción a inferencia bayesiana
Aprendizaje de redes bayesianas
Ejemplos prácticos de aplicaciones
7.- Arboles de decisión y regresión
Introducción a arboles de decisión y regresión
Inducción de arboles, criterios de podado
Ejemplos prácticos de aplicaciones
8.- Redes Neuronales
Introducción a redes neuronales
Estructura, aprendizaje y adaptación
Capas y deep learning
Ejemplos prácticos de aplicaciones
9.- Support Vector Machines (SVMs)
Introducción teórica
Tipos de SVMs
Selección de modelo
Ejemplos prácticos de aplicaciones
10.- Técnicas de mezcla modelos
Bagging
Boosting
Random forests
11.- Reducción de dimensiones mediante PCA
Programa práctico
Prácticas por ordenador en parejas: analizar conjuntos de datos.
Resultados y explicación GitHub (https://github.com/).
Libreria scilit-learn (http://scikit-learn.org/stable/), plataforma Anaconda (https://www.continuum.io/anaconda-overview).
Metodología
Tipo de docencia |
M. (Magistral) |
GO (Prácticas ordenador)
|
Horas lectivas |
30 |
30 |
Horas de trabajo |
45 |
45 |
Sistema de evaluación
10% de la nota final: Concurso entre parejas de alumnos usando el sistema Kaggle (https://inclass.kaggle.com/).
40% de la nota final: Prácticas entregadas.
50% de la nota final: Exámen escrito.
Proyecto de investigación
Estrategias para publicar y consumir Grandes Datos sobre Metagenómica de acuerdo a los principios FAIR
FAIR DATA
FINDABLE
→ Unambiguous identifiers supported by searchable metadata
ACCESSIBLE
→ Clearly-defined access protocol, preferably machine-actionable
INTEROPERABLE
→ Use shared vocabularies/ontologies in machine-accessible format
REUSABLE
→ Contextual information, allowing proper interpretation
→ Rich provenance information facilitating accurate citation
“Make adequate data stewardship mandatory
for all research proposals.
...Horizon 2020, should only support projects that properly address Data Stewardship... data infrastructures, that do not specify FAIR conditions...
should not be eligible for funding.”
Background
Linked Data
1.- Use URIs to identify entities and their relationships.
2.- Use HTTP URIs in order for agents to resolve (locate on the Web) such entities.
3.- When an entity is resolved via HTTP, information about the entity should be provided, in open standards. The format in which information is provided should be defined through content negotiation with the requesting agent (http://tools.ietf.org/html/rfc7231#section-5.3).
4.- The provided information should have HTTP resolvable typed links to other Linked Data resources, in order for the agent to discover more information by simply browsing through the links, as in “normal” Web browsing.
SADI
Big Data as Linked Data
1.- “Pure Linked Data” strategy
2.- “SADI Linked Data” strategy
3.- “Linked Data Fragments” strategy
1.- “Pure Linked Data” strategy
2.- “SADI Linked Data” strategy
3.- “Linked Data Fragments” strategy
Big Data as Linked Data: specific targets
Develop HDF5 (BIOM) to RDF converter
Values (Key-Value Store / RDF )
Metadata (RDF)
Metadata links to LOD cloud (RDF)
Provenance
Convert BIOM to RDF
Publish RDF
Pure Linked Data
SADI Linked Data
Linked Data Fragments
Key-Value store
Triple Store
Link discovery
Evaluation
New queries due to integration
Performance
Mikel Egaña Aranguren EHU DIA Ayudante Doctor
By mikel-egana-aranguren
Mikel Egaña Aranguren EHU DIA Ayudante Doctor
- 1,809