Dónde estamos
Ampliación Edif. Rectorado
Campus de Móstoles
Calle Tulipán s/n.
28933 Móstoles. Madrid
cied@urjc.es
Se necesita para ello equipos multidisciplinares con formación en diferentes ámbitos, en especial, cubriendo la triple formación de modelización matemática, informática y tecnologías de las comunicaciones. De este modo, se combina la formación más teórica de los matemáticos con la más aplicada de perfiles centrados en el ámbito de las Tecnologías de la Información y las Comunicaciones. La demanda de profesionales con capacidades en todas estas áreas es en la actualidad mucho más alta que la oferta, por lo que se trata de un mercado laboral emergente en plena expansión y con grandes posibilidades de futuro.
En esta entrada del blog nos centraremos especialmente en soluciones propias del análisis de Big Data y su influencia en el campo de la toma de decisiones. Analizaremos principalmente la integración de tecnologías tales como Apache Hadoop y Apache Spark con la obtención, almacenamiento y análisis de datos.
Por un lado, Hadoop proporciona un conjunto de soluciones tecnológicas que funcionan solidariamente para resolver problemas de almacenamiento y procesamiento de datos que no se podían abordar de forma intuitiva con las soluciones tradicionales. El ecosistema Hadoop integra herramientas como sistemas de ficheros distribuidos (HDFS), bases de datos no convencionales (HBase, Cassandra, etc.) o sistemas similares a las bases de datos relacionales (como Hive). Todos estos sistemas permiten el procesamiento de grandes volúmenes de datos cumpliendo los requisitos de alta disponibilidad y capacidad de cómputo que demandan muchas aplicaciones modernas.
Adicionalmente, el despliegue de este tipo de plataformas se ha visto enormemente beneficiado por el intenso desarrollo de las tecnologías de computación en la nube, que permiten crear, ampliar y configurar rápidamente nuevos nodos de cómputo para ampliar las infraestructuras de la empresa. En este contexto, también nos permite abordar de forma eficiente la obtención y consolidación de datos procedentes de múltiples fuentes tales como páginas web, sistemas de información, redes sociales, bases de datos relacionales, datawarehouse, Internet de las Cosas (Internet of Things), etc. De este modo, podemos integrar conjuntos de datos cada vez más extensos, que permitan combinar información desde múltiples puntos de vista como materia prima para el proceso de toma de decisiones.
Por otro lado, una de las tecnologías que ha supuesto una evolución más disruptiva en las capacidades de procesamiento y análisis de datos del ecosistema Hadoop ha sido la introducción de Apache Spark como motor alternativo de procesado de la información. La gran ventaja que proporciona Spark frente a otras soluciones es, principalmente, su capacidad para dar soporte tanto a procesado de datos estático (procesamiento por lotes o batch) como a procesado de flujos de datos dinámicos (procesamiento streaming). En este último caso, esta tecnología ha abierto las puertas a la implementación de sistemas de aprendizaje máquina online, que permiten el reentrenamiento automático de nuestros algoritmos conforme llegan nuevos datos, de manera que nuestro modelo esté continuamente adaptado al contexto de toma de decisiones en el que debe funcionar.
Los algoritmos de aprendizaje incluidos en Spark, tales como sistemas de recomendación, clasificación y predicción, están ya diseñados para ser escalables y eficientes en entornos de Big Data, de forma que el volumen de información manejada no sea un problema. Además, siguiendo el espíritu ampliable de este ecosistema, podemos conectar Spark con otras soluciones externas como H2O o SystemML, que permiten completar el portfolio de algoritmos que soporta la plataforma con nuevos tipos, algunos de ellos muy populares (recuperados en la actualidad) como por ejemplo las redes neuronales que son la base de los llamados sistemas de aprendizaje profundo (deep learning).
Sin embargo, no debemos olvidar que por muy sofisticado que sea el ecosistema tecnológico que usamos para implementar estos sistemas de ayuda a la toma de decisiones, el papel que juega el responsable final en la toma de la decisión es clave para la calidad de la misma. De hecho, diferentes métodos pueden llevar a diferentes decisiones, cada una de las cuales lleva asociada una probabilidad de éxito/fracaso que se debe tener en cuenta. En ocasiones, estos métodos pueden producir de forma automática dicha probabilidad, mientras que en otros casos se puede producir mediante técnicas adicionales. Por lo tanto, dichos responsables deben estar entrenados adecuadamente en la interpretación de los resultados de estos algoritmos para combinarlos adecuadamente con su conocimiento y experiencia previos de cara a valorar si los resultados tienen sentido y son aplicables en un problema particular.
La Universidad Rey Juan Carlos impulsa a lo largo de los últimos años este perfil profesional a través del Máster online en Ingeniería de Sistemas de la Decisión.
Ampliación Edif. Rectorado
Campus de Móstoles
Calle Tulipán s/n.
28933 Móstoles. Madrid
cied@urjc.es