DPM Questions et Bonnes Pratiques

Questions/Sujets de discussions

vous pouvez ajouter ici vos questions ou vos doutes a propos des opérations DPM.

"j'aimerais faire XXXX mais je ne sais pas comment", "est-ce que quelqu'un a déjà un outil pour faire YYYY", etc...

problèmes de transferts de fichiers (LPSC - Christine)
  * Christine Gondrand : Nous avons de temps en temps un ticket GGUS concernant des problemes sur les transferts de fichiers.
     FR IN2P3-LPSC: Transfer errors with "Communication error on send" 
Detailed Description:
625 transfer errors in the past 4 hours.
Example:

2017-10-25 19:09:04 data17_13TeV:DAOD_JETM2.12286827._000648.pool.root.1 #257 TRANSFER_FAILED
TOOL ID rucio-conveyor
SRC SITE AGLT2_DATADISK
SRC URL srm://head01.aglt2.org:8443/srm/managerv2?SFN=/pnfs/aglt2.org/atlasdatadisk/rucio/data17_13TeV/6c/b5/DAOD_JETM2.12286827._000648.pool.root.1
DST SITE IN2P3-LPSC_DATADISK
DST URL srm://lpsc-se-dpm-server.in2p3.fr:8446/srm/managerv2?SFN=/dpm/in2p3.fr/home/atlas/atlasdatadisk/rucio/data17_13TeV/6c/b5/DAOD_JETM2.12286827._000648.pool.root.1
TRANSFER ID be67e539-2fa2-5df6-be27-2e05bb0dc076
TRANSFER ENDPOINT https://fts3-pilot.cern.ch:8446
ERROR MSG TRANSFER [70] DESTINATION OVERWRITE srm-ifce err: Communication error on send, err: [SE][srmRm][] httpg://lpsc-se-dpm-server.in2p3.fr:8446/srm/managerv2: CGSI-gSOAP running on fts106.cern.ch reports Error reading token data header: Connection reset by peer
ACTIVITY Data Brokering
FILE SIZE 339052168 bytes
DURATION 220 s
DATASET MONITORING Details on Rucio UI: file

En general , je redemarre les services xrootd ,cmsd sur le Head Node DPM et le probleme semble resolu.
Je n'ai pas reussi a trouver ces messages dans les logs du serveur DPM.

pid file exists (LPSC - Catherine)

nous avons régulièrement (1 fois par jour estimé à la louche) des remontées de sondes nagios indiquant

***** centreon Notification *****

Notification Type: PROBLEM

Service: ssh_service_xrootd
Host: lpsc-se-dpm-disk36
Address: 193.48.83.70
State: CRITICAL

Date/Time: 31-10-2017 - 12:52:24 Additional Info : [disk] xrootd dead but pid file exists

Link to ssh_service_xrootd : https://lpsc-monitoring.in2p3.fr/centreon/main.php?p=20201&o=svcd&host_name=lpsc-se-dpm-disk36&service_description=ssh_service_xrootd

DELL only, link to OPENMANAGE : https://lpsc-se-dpm-disk36:1311

Pour remettre le service sur ied, nous devons sur le disk en question : killer le rocess xrootd, faire un rm du pid file et faire un start du service.

est-ce que les autres sites ont régulièrement ce type de problème ?
Nous envisageons de faire une "raparation automatique" dans le script de détection de l'erreur mais ce n'est pas très satisfaisant.

Accounting DPM (IPHC - J. Pansanel)

Est-il possible d'utiliser d'autres solutions que celle distribué par EGI pour l'accounting ?

Le script date d'un peu moins de deux ans. Il n'utilise pas les dernières fonctionnalités de DOME permettant d'utiliser les nouvelles infos dans la base. Y-a-t-il des personnes intéressées pour améliorer le script ?

http://svnweb.cern.ch/world/wsvn/lcgdm/lcg-dm/trunk/scripts/StAR-accounting/star-accounting.py

Bonnes Pratiques

vous pouvez ajouter ici vos bonnes pratiques, en réponse aux questions de la section précédente, ou juste pour nous faire connaître des solutions qui marchent bien chez vous

  * PRENOM NOM : [En reponse a la question XXX de YYY]. ...