Caso de éxito: La Plataforma de Preservación Open Science de ESFRI LIFEWATCH desplegada en la ICTS-RBD

09 Jun 2016

Plataforma Lifewatch desplegada en ICTS-RBD

Compartelo:Share on Facebook0Share on Google+0Tweet about this on TwitterShare on LinkedIn0

En artículos anteriores hemos destacado la importancia de los datos abiertos en el marco de las estrategias que Europa se ha planteado para la consecución de los objetivos marcados para el 2020. Actualmente estamos en un entorno colaborativo donde la filosofía Open abarca todos los ámbitos. Hoy, os traemos un ejemplo de cómo Europa, a través de las diferentes entidades está jugando un papel crucial en el campo de la investigación: Plataforma de Preservación Open Data orientada específicamente a la temática de la ESFRI LIFEWATCH desplegada en la ICTS-RBD.

Es un factor innegable que los Datos Abiertos deberían jugar un papel fundamental en el campo de la investigación. Las políticas Open, también se aplican al conocimiento, produciendo sinergias que son traducidas en mayores avances en un menor periodo de tiempo.

Hablando de investigación en Europa, nos gustaría comentar sobre dos siglas poco conocidas fuera de su círculo natural:

  • EGI – European Grid Initiative
  • ESFRI – European Strategy Forum Research Infrastructures

EGI- European Grid Initiative

EGI LifeWatch

EGI es una asociación de proveedores nacionales e intergubernamentales de recursos compartidos de computación, almacenamiento y fuentes de datos que da servicios de computación caracterizados por ser sostenibles, integrados y distribuidos de forma segura, a los investigadores europeos y sus asociados internacionales.

European Grid Initiative es una organización sin ánimo de lucro controlada por NGIs – National Grid Initiatives- e IRIs -International Research Initiatives-. Se encarga de la coordinación de la federación EGI en representación de sus participantes, los cuáles se dividen en dos grupos:

  • Organizaciones que representan e-Estructuras nacionales  (NGI´s)
  • Organizaciones de Investigación Europea Intergubernamentales. (EIROS)

Es importante mencionar la amplia gama de servicios que EGI ofrece a sus participantes, cubriendo desde la consultoría al soporte y marketing. No obstante, cabe destacar el servicio que presta creando puntos de acceso único para todos los investigadores y proveedores de información, de forma que se homogeneizan las fuentes de software y se evitan las duplicidades. Igualmente, se encarga simplificar el día a día de los investigadores gracias a la aportación de infraestructuras que evitan la duplicidad de costes y recursos.

Para el propósito de este artículo, hay que mencionar a ES-NGI, que es la organización que representa a la plataforma nacional. Dicha plataforma conforma en sí un entorno colaborativo donde investigadores de diferentes puntos del país pueden trabajar de manera conjunta sobre un mismo grupo de datos y es de ahí de donde viene su importancia.

ESFRI -European Strategy Forum Research Infrastructures-

ESFRI LifeWatch

ESFRI hace referencia al Foro Estratégico Europeo sobre Infraestructuras de Investigación, es un instrumento estratégico para el desarrollo de la integración científica de Europa y para el refuerzo de su proyección internacional. El acceso competitivo y abierto a la alta calidad de las infraestructuras de investigación apoya y puntos de referencia de la calidad de las actividades de los científicos europeos, y atrae a los mejores investigadores de todo el mundo.

Esta institución lleva desde 2006, encargándose de dar soporte a la comunidad científica europea con el fin de alinear sus proyectos con los objetivos estratégicos que Europa tiene marcado. De tal manera que la investigación vaya cubriendo las necesidades de los ciudadanos a la vez que da un impulso a la mejora de la competitividad de la Europa de los 28, a través de la investigación científica.

ESFRI cuenta con un total de 21 proyectos actualmente y cada año presenta un informe sobre el estado de los mismos así las líneas a seguir en cada uno de los campos de investigación, que en este caso corresponden a las siguientes categorías: Energía, Medio ambiente, Salud y Alimentación, Física e Ingeniería, Innovación Social y Cultural.

ESFRI además, diferencia entre proyectos generales y aquellos que por su importancia marcan un antes y un después en el estado de la investigación europea en general. A continuación se muestran algunos de los proyectos considerados en esta segunda categoría en el Roadmap marcado para el 2016 :

ESFRI Landmarks LifeWatch

Dentro de la categoría de medio ambiente, resalta el proyecto Lifewatch: e-infraestructura para la diversidad y la investigación del ecosistema, proyecto que como se observa en la imagen, se empieza a desarrollar en el 2006 pero que no es hasta este año cuando se está ejecutando y donde los datos abiertos son una pieza clave.

Lifewatch: Ciencia y Datos Abiertos

Como mencionábamos con anterioridad, Lifewatch (E-Science European Infrastructure for Biodiversity and Ecosystem Research) es una e-infraestructura de referencia mundial para la protección, gestión y uso sostenible de la biodiversidad que permitirá avanzar y dar soporte a las líneas de investigación sobre la biodiversidad y para hacer frente a los grandes desafíos ambientales, y estará basada en el conocimiento de soluciones estratégicas de preservación del medio ambiente.

Esta misión se consigue proporcionando acceso a una multitud de conjuntos de datos, servicios y herramientas permitiendo la construcción y el funcionamiento de los entornos virtuales de investigación.

Es importante destacar que supone un punto de encuentro de la comunidad científica donde se puede acceder a una gran cantidad de datos ambientales, que surge como respuesta a la necesidad que investigación conjunta de la biodiversidad entendida de manera global, así como de colaboración e interacción entre los diferentes investigadores. A continuación, os dejamos un video donde se explica más en detalle qué es Lifewatch: http://lifewatch.eu/What_is_LifeWatch

La e-infraestructura de Lifewatch, cuenta con diferentes centros comunes, situados en España, Italia y Holanda  y otros distribuidos a lo largo de Europa. Así se desarrollan proyectos y acciones más concretas de manera localizada en cada país, siendo España el país coordinador de Lifewatch. En el siguiente mapa, se muestran algunos de estos proyectos y acciones que se están desarrollando en toda la Comunidad Europea:

Mapa de actuación de LifeWatch

Es en este marco donde se encaja el proyecto del que trata nuestro artículo: La Plataforma de Preservación Open Data orientada específicamente a la temática de la ESFRI LIFEWATCH desplegada en la Instalación Científica y Tecnológica Singular de la Reserva Biológica de Doñana (ICTS-RBD).

Llegados a este punto, es importante destacar la relación existente entre EGI y esta plataforma. Como decíamos, dentro de EGI se encuentran los NGI, los cuales son precisamente e-infraestructuras para la promoción de la colaboración entre los investigadores, por lo que es la base para el desarrollo de este otro proyecto, en este caso, en el marco de Lifewatch e incluyendo un portal de datos abiertos.

Plataforma de Preservación Open Data ICTS-RBD EBD-CSIC.

En el ámbito de la investigación dadas las sinergias y colaboraciones que surgen, sobre todo a nivel de Europa – en parte gracias a las nuevas herramientas que se están proveyendo para ello, a partir de Europa 2020-, se hace necesario la aparición de una plataforma que satisfaga las nuevas necesidades de investigadores y grupos de investigación. En este contexto las tecnologías Open Data tienen mucho que aportar:

El papel de las tecnologías Open Data  en la investigación

Gracias al uso de las tecnologías de datos abiertos, los investigadores tienen la opción de compartir datos con otros grupos de investigación, de forma que se pueden beneficiar de las siguientes ventajas:

  • Incremento de las oportunidades y posibles sinergias para descubrimientos y consecución de resultados.
  • Se evita la duplicación de proyectos y/o líneas de investigación.
  • Disminución del riesgo de uso de datos erróneos o fraudulentos.
  • Se permite la colaboración entre diferentes grupos de investigación gracias al uso de datos compartidos, obtenidos en diferentes centros.
  • Optimizar recursos

Para hacer posible el uso de Datos Abiertos en el campo de la investigación en Europa, se han tenido que llevar a cabo algunos pasos previos:

  • Desarrollo de estándares internacionales reconocidos. Los distintos grupos de investigación del mundo pueden recoger y tratar los datos de forma heterogénea, pero deben compartirlos con estándares comunes para que puedan ser utilizados por toda la comunidad.
  • Crear inversiones públicas para dotar a las universidades y grupos de investigación de infraestructuras y herramientas comunes a su disposición.
  • Tomar medidas que ayuden a superar la aversión a compartir sus investigaciones y datos obtenidos que muchos investigadores tienen.

En el ámbito de la biodiversidad, las instituciones no son ajenas a las innegables ventajas anteriormente descritas, es por ello por lo que el principal objetivo de este proyecto era la creación de una plataforma Open Data que, siendo compatible con las infraestructuras europeas, sirviera para gestionar el ciclo completo del dato en esta materia.

Desde la perspectiva del investigador, se pretendía crear una entorno único donde tuviese control sobre las distintas etapas del ciclo de vida del dato de su proyecto, pero que a la vez permita que pueda colaborar con otros, que esté investigando en líneas complementarias.

Llegados a este punto, es importante definir a qué nos referimos con el ciclo de vida del dato en el marco de este proyecto.

El ciclo de vida del dato y la plataforma

Cuando hablamos de ciclo de vida del dato, hacemos referencia a todo los estadíos por los que pasa desde la planificación de su publicación hasta su consumo por terceros. En este proyecto, es esencial dar soporte específico para cada una de las fases de dicho ciclo de vida:

  • Planificación de la gestión del dato a través de un Data Management Planning tool (DMP).
  • Adquisición del dato: Mediante sensores o a través de la captura de datos almacenados en otros repositorios accesibles a través de un tercero. Es algo externo a la plataforma.
  • Almacenamiento del dato: Se puede llevar a cabo sobre distintos soportes de almacenamiento.
  • Recuperación del dato almacenado en fuentes heterogéneas
  • Publicación del dato, en portales Open Data que publican los datos en diversos formatos estándar.
  • Consumo del dato.
  • Preservación del dato.

Basados en el ciclo de vida del dato, la plataforma de Preservación Open Data, constaba inicialmente de 6 módulos: Planificación, Adquisición, Portal Open Data, Consumo, Preservación y Almacenamiento.

En cuanto a las soluciones técnicas utilizadas para cada una de las fases:  

  • Planificación de la gestión del dato: Solución basada en DMPTool y extendida para permitir el uso de ontologías (y añadir semántica a los DMP), integración de metadatos asociados, etc.
  • Adquisición de datos: soluciones Python para la monitorización y control remoto de sensores, módulos de calibración de sensores, conexión con datos definidos, existentes en repositorios externos o disponibles en repositorios remotos…
  • Almacenamiento en EGI y recuperación del dato mediante una solución que permita obtener la información desde fuentes heterogéneas de una forma centralizada y común, pudiendo partir de OneData.
  • Publicación del dato en un portal basado en Invenio, permitiendo la explotación como datos abiertos, y asignando un DOI para cada dataset.
  • Consumo de los datos, explotación de entornos de desarrollo para investigadores basados en Jupyter Notebook.
  • Preservación del dato mediante herramientas Open Source como Bacula sobre soportes físicos (discos, SAN/NAS, cintas, etc.)

Para completar la plataforma, se hizo necesaria  la inclusión de un módulo más para de autenticación y autorización  desarrollado íntegramente por Viavansi. . De esta forma,  el diseño final quedó así:

El módulo que inicialmente pretendía ser un portal de datos abiertos terminó convirtiéndose  realmente en una Plataforma de Open Science que de cierta forma coordinaba y servía de punto de entrada o consumo del resto de los módulos.

El proyecto finalizó en noviembre del 2015, y se desplegó en la Instalación Científica y Tecnológica Singular de la Reserva Biológica de Doñana (ICTS-RBD) y ha quedado a disposición de toda la red de investigadores de la ESFRI-LifeWatch..  Dentro de este proyecto liderado por Telefónica, Viavansi desarrolló 5 módulos de la plataforma, colaborando con Adevice, quien se encargó del módulo de Adquisición del dato y Aeonium, naciente empresa de base tecnológica, encargada de desarrollar la Plataforma Open Science.

Post relacionados

Compartelo:Share on Facebook0Share on Google+0Tweet about this on TwitterShare on LinkedIn0

Sin comentarios

Dejar un comentario

*