Dónde estamos
Ampliación Edif. Rectorado
Campus de Móstoles
Calle Tulipán s/n.
28933 Móstoles. Madrid
cied@urjc.es
La ciencia de datos es una de las disciplinas más atractivas en la actualidad tanto desde el punto de vista académico como empresarial. Una de las áreas fundamentales es el aprendizaje automático. La enseñanza de este tópico es, por lo general, muy académica tanto en grado como en máster. Una de las desventajas de esta aproximación es que cuando los alumnos se enfrentan a problemas reales no han desarrollado las herramientas adecuadas para establecer un modelo de datos correcto, es decir, no han entrenado suficientemente la parte de artesanía del aprendizaje automático. Proponemos en este trabajo utilizar las competiciones de ciencia de datos, estilo Kaggle, en la que los alumnos se enfrentan a un problema real, de forma que tienen que realizar todos los pasos necesarios en un proyecto real de aprendizaje automático. Adicionalmente, los alumnos compiten por quedar los primeros en el ranking, recibiendo un premio los dos equipos ganadores.
Una de las disciplinas más atractivas en la actualidad, tanto desde el punto de vista académico, como desde el punto de vista empresarial, es lo que está dado en llamarse ciencia de datos. Este término hace referencia a un nuevo campo multidisciplinar cuyo principal objetivo es utilizar modelos y procesos para extraer conocimiento a partir de datos en diferentes formatos, tanto estructurados como desestructurados.
Actualmente, tanto en el ámbito empresarial como en el de investigación, tenemos acceso a una cantidad ingente de datos: desde las fuentes clásicas de datos, hasta nuestros teléfonos móviles; nosotros mismos nos hemos convertido en una fuente de datos excepcional. Existen estimaciones de que en el mundo se generan 2.5 exabytes de datos cada día, estamos pues ante la era del Big Data (IBM Big Data, 2017). Pero esto no quiere decir que seamos capaces de extraer conocimiento de estos datos. Para ello, deberíamos ser capaces de crear modelos, utilizando estos datos, que nos permitan entender mejor el problema a resolver o/y hacer mejores predicciones. Sin embargo, existe el peligro de que el ritmo al que se adquieren nuevos datos sea muy superior al ritmo al que nuestro entendimiento es capaz de procesarlos, lo cual haría esa información inútil (Silver, 2012).
Uno de los principales problemas se encuentra en la formación de profesionales en este ámbito. Al tratarse de una disciplina eminentemente multidisciplinar es difícil encontrar, actualmente, estudios universitarios de grado que ofrezcan una formación completa en ciencia de datos.
El modelo de enseñanza del aprendizaje automático que se propone en este trabajo es una competición de datos junto a cuatro seminarios de tres horas cada uno. Ambos, competición y seminarios se realizan de forma simultánea.
La competición de datos está basada en las competiciones de Kaggle (Kaggle, 2017), en las que se propone la resolución de un problema real con datos. Se pidió a los estudiantes que formasen equipos (2-3 miembros) para poder participar en la competición. En este tipo de competiciones se plantea un problema de aprendizaje automático, en el actual fue un problema de clasificación, en el que se pedía a los contendientes predecir la mortalidad en accidentes de coches.
El objetivo principal es que los equipo emulen el trabajo de un equipo de ciencia de datos en la vida real.
Los seminarios tenían como objetivo presentar a los alumnos las herramientas básicas para poder enfrentarse con el problema de la competición. Fueron seminarios eminentemente prácticos, utilizando como herramienta principal los Notebooks de IPython, que representan un entorno de programación interactivo, en el cual se puede combinar la ejecución de código, texto enriquecido, LaTeX, gráficos, etc.
Uno de los principales problemas a los que nos enfrentamos era cómo evaluar el impacto que tiene la competición y los seminarios como herramienta para la enseñanza de aprendizaje automático. Propusimos la utilización de unas encuestas que los alumnos debían realizar tanto a la hora de matricularse en la competición como al finalizar la misma.
Los resultados de las encuestas muestran que el método propuesto resulta muy efectivo para que el alumno participe como principal motor en el aprendizaje de los conceptos. Adicionalmente, esta aproximación permite formar en los aspectos prácticos que habitualmente no se cubren en la enseñanza clásica, pero que resultan ser un hecho diferencial.
Es profesora Ayudante Doctor de la Universidad Rey Juan Carlos. Doctora ("Doctor europeus", "cum laude") por la Universidad Rey Juan Carlos de Madrid (2014), Máster en Ingeniería Biomédica por la Universidad de Oporto, Portugal (2008) e Ingeniero Técnico de Telecomunicación por la Universidad Carlos III de Madrid (2006). Áreas principales de investigación: procesamiento digital de señales fisiológicas, análisis de series temporales, estudio de complejidad y dinámicas no lineales en señales y aprendizaje estadístico.
Es profesor Ayudante Doctor de la Universidad Rey Juan Carlos. Doctor ("Doctor europeus", "cum laude") por la Universidad Rey Juan Carlos (2014), Máster en Ingeniería Biomédica por la Universidade do Porto, Portugal (2008) e Ingeniero Técnico de Telecomunicación por la Universidad Carlos III de Madrid (2005). Áreas principales de investigación: análisis no lineal de series temporales, procesamiento de señales biomédicas y aprendizaje estadístico.
Ampliación Edif. Rectorado
Campus de Móstoles
Calle Tulipán s/n.
28933 Móstoles. Madrid
cied@urjc.es