Project

General

Profile

Tâche #9208

Scénario #10329: Assistance aux utilisateurs (5-7)

Relance des services par les agents de surveillance en cas de problème

Added by Jean-Marc MELET almost 7 years ago. Updated over 6 years ago.

Status:
Fermé
Priority:
Normal
Assigned To:
Target version:
Start date:
01/26/2015
Due date:
% Done:

100%

Estimated time:
1.00 h
Spent time:
Remaining (hours):
0.0

Description

Sauf erreur de ma part, aucun agent zéphir hormis celui du RVP n'effectue d'actions suite à la détection d'un service arrété ou défaillant. Est-ce voulu? Je pense que l'on gagnerait en stabilité si l'ensemble des service surveillés sont suivi d'actions en cas de problème. D'autant plus que ces actions ont l'air d'être déja prévues dans le code:
Si je prend l'exemple du service eole-sso, /usr/share/zephir/monitor/actions/eole/sso.actions prévoit des actions de redémarrage du service SSO mais cette fonctionnalité ne semble pas utilisée par l'agent.
En effet, /usr/lib/python2.6/dist-packages/zephir/monitor/agents/sso.py se contente seulement de surveiller l'état du service toutes les 15 min et loguer dans /var/log/rsyslog/local/zephiragents/zephiragents.info.log et vers Zéphir.

Qu'en pense l'équipe?

J'en profite pour signaler qu'il y a un mauvais commentaire dans /usr/share/zephir/monitor/actions/eole/sso.actions (service dansguardian à la place de sso).

Associated revisions

Revision 33205949 (diff)
Added by Joël Cuissinat over 6 years ago

  • sso.actions : correction de la description de l'action

Ref: #9208 @10m

History

#1 Updated by Joël Cuissinat over 6 years ago

  • Tracker changed from Evolution to Tâche
  • Status changed from Nouveau to En cours
  • Assigned To set to Joël Cuissinat
  • Start date changed from 10/09/2014 to 01/26/2015
  • % Done changed from 0 to 50
  • Estimated time set to 1.00 h
  • Parent task set to #10329
  • Remaining (hours) set to 0.5
  • Distribution changed from EOLE 2.3 to Toutes

Bonjour,

J'ai (re)trouvé la documentation : http://eoleng.ac-dijon.fr/pub/Documentations/manuels/2.3/partielles/HTML/ModuleZephir/co/04b-actions_agents.html
Par défaut les agents services gérés sont dansguardian, ssh, bind9, eole-sso et le rvp.
Dans la plupart des actions automatiques proposées, le service est redémarré uniquement si son fichier PID et toujours présent, ceci afin de ne pas redémarrer automatiquement les services arrêtés "proprement".
Ayant (re)découvert cette fonctionnalité récemment, j'ai déjà relevé un certain nombre de bugs surtout du au fait que ce code n'a pas évolué depuis la 2.2 :

Si tu as encore des questions concernant cette fonctionnalité, viens en discuter avec nous :)
Tu peux bien sûr ouvrir des signalements si tu trouves des bugs précis et avérés.

Amicalement

#2 Updated by Jean-Marc MELET over 6 years ago

Merci Joël pour ces infos. Cette partie de la doc m'avait échappé, c'est bien expliqué en plus.
Du coup je pense qu'on va mettre en place de actions personnalisées. En fait pour certains services, on veut qu'ils soient redémarrés même si le PID est absent car parfois ils ne tournent plus et il n'y a pas non plus le PID donc ils ne sont pas relancés. Est-ce que ça ferait l'affaire si on crée une action sur le modèle action_error existant mais en enlevant la condition

if path.isfile('/var/run/ead/%s.pid'%SERV_NAME):
?

#3 Updated by Joël Cuissinat over 6 years ago

  • Status changed from En cours to Fermé
  • % Done changed from 50 to 100
  • Remaining (hours) changed from 0.5 to 0.0

Jean-Marc MELET a écrit :

Merci Joël pour ces infos. Cette partie de la doc m'avait échappé, c'est bien expliqué en plus.
Du coup je pense qu'on va mettre en place de actions personnalisées. En fait pour certains services, on veut qu'ils soient redémarrés même si le PID est absent car parfois ils ne tournent plus et il n'y a pas non plus le PID donc ils ne sont pas relancés. Est-ce que ça ferait l'affaire si on crée une action sur le modèle action_error existant mais en enlevant la condition [...] ?

Oui, c'est exactement ça :)

Also available in: Atom PDF