19122018
Réunion : Mercredi 19 Décembre à 14:00 (Vidyo)

1/ Bilan des tests de fédération de stockage LAPP-LPSC-CC avec AGIS sans cache

Documentation :

Objectifs :

  1. Tester une forme de fédération/agrégation des stockages de 3 sites proches en autorisant les accès remote en lecture : observer les effets, éventuelles limitations
  2. Évaluer la pertinence d'une approche sans cache (faibles RTT)
  3. Envisager un cas de downtime (arrêt pour maintenance) du stockage d'un site : voir si la poursuite de l'activité de calcul est possible (en ayant accès au stockage d'un ou plusieurs sites distants)

Gains potentiels recherchés

  • Optimisation de l'utilisation du stockage des sites par ATLAS : limiter l'espace disque occupé par le pré-positionnement temporaire de données sur chacun des sites en autorisant des accès remote entre sites distants
  • Continuité de l'activité de calcul en cas d'arrêt du stockage d'un site

Mise en place

  • Mise a jour des queues Panda du LAPP et LPSC pour donner la possibilité de lire données depuis LAPP, LPSC et CC

Bilan

Ça marche mais identifications de problèmes.
  • Limitations et bugs :
    1. AGIS
      - Mauvaise gestion des downtime : Ne sait pas gérer un downtime du uniquement du SE local ou d'un SE distant > Rapporter à ADC et en attente de correction (interet aussi pour les diskless sites)
      Logs des modifs ds AGIS n'étaient pas listés pour "associated storages, pilot copytools settings and adding/removing queues to PQ", corrigé le 08/12/2018. La possibilité d'avoir une notification n'est prévu que pour la prochaine version d'AGIS "CRIC".
    2. Panda
      - Quand les fichiers d'inputs viennent de loin par FTS, Panda l'envoie vers le SE le plus 'proche' du site de départ -> Tout arrive au CC puis génere du trafic non ordonancé entre depuis le CC -> Reporter à ATLAS
    3. Pilote
      - Problème temporaire : Pas de monitoring des acces 'Production download' et 'Analysis Direct Access' and Rucio Grafana
    4. Utilisation du réseau
      - Impossible de limiter l'utilisation de la bande passante par les accès distants (pas de soltion coté application)
  • A finir : Mettre en place le monitoring pour mesurer le CPU efficiency en fonction de la paire de sites et du type de jobs
  • Actions : Arrêt des tests pour la période de Noël et jusqu'à mise en place du monitoring d'efficacité des jobs

2/ Programme 1er semestre 2019

Feuille de route DOMA-FR à remplir sous Atrium (lien)

Option 1 : Déployer 'volatile pool' entre LAPP et LPSC

Le but est de déployer et valider la fonctionnalité de Volatile Pool dans ATLAS. Ce volatile pool hébergerait les données temporaires input de la production.
L’équipe Rucio a dit lors du meeting DOMA-Access que l'intégration pourrait se faire facilement. A vérifier.

Le volatile pool demande d'avoir la version DOME (DPM 1.9 ou 1.10 version à vérifier). Coté LAPP, un SE de test (lapp-se99) est disponible et déjà sous DOME (DPM 1.9).