Projet

Général

Profil

Tâche #9208

Scénario #10329: Assistance aux utilisateurs (5-7)

Relance des services par les agents de surveillance en cas de problème

Ajouté par Jean-Marc MELET il y a plus de 9 ans. Mis à jour il y a environ 9 ans.

Statut:
Fermé
Priorité:
Normal
Assigné à:
Version cible:
Début:
26/01/2015
Echéance:
% réalisé:

100%

Temps estimé:
1.00 h
Temps passé:
Restant à faire (heures):
0.0

Description

Sauf erreur de ma part, aucun agent zéphir hormis celui du RVP n'effectue d'actions suite à la détection d'un service arrété ou défaillant. Est-ce voulu? Je pense que l'on gagnerait en stabilité si l'ensemble des service surveillés sont suivi d'actions en cas de problème. D'autant plus que ces actions ont l'air d'être déja prévues dans le code:
Si je prend l'exemple du service eole-sso, /usr/share/zephir/monitor/actions/eole/sso.actions prévoit des actions de redémarrage du service SSO mais cette fonctionnalité ne semble pas utilisée par l'agent.
En effet, /usr/lib/python2.6/dist-packages/zephir/monitor/agents/sso.py se contente seulement de surveiller l'état du service toutes les 15 min et loguer dans /var/log/rsyslog/local/zephiragents/zephiragents.info.log et vers Zéphir.

Qu'en pense l'équipe?

J'en profite pour signaler qu'il y a un mauvais commentaire dans /usr/share/zephir/monitor/actions/eole/sso.actions (service dansguardian à la place de sso).

Révisions associées

Révision 33205949 (diff)
Ajouté par Joël Cuissinat il y a environ 9 ans

  • sso.actions : correction de la description de l'action

Ref: #9208 @10m

Historique

#1 Mis à jour par Joël Cuissinat il y a environ 9 ans

  • Tracker changé de Evolution à Tâche
  • Statut changé de Nouveau à En cours
  • Assigné à mis à Joël Cuissinat
  • Début changé de 09/10/2014 à 26/01/2015
  • % réalisé changé de 0 à 50
  • Temps estimé mis à 1.00 h
  • Tâche parente mis à #10329
  • Restant à faire (heures) mis à 0.5
  • Distribution changé de EOLE 2.3 à Toutes

Bonjour,

J'ai (re)trouvé la documentation : http://eoleng.ac-dijon.fr/pub/Documentations/manuels/2.3/partielles/HTML/ModuleZephir/co/04b-actions_agents.html
Par défaut les agents services gérés sont dansguardian, ssh, bind9, eole-sso et le rvp.
Dans la plupart des actions automatiques proposées, le service est redémarré uniquement si son fichier PID et toujours présent, ceci afin de ne pas redémarrer automatiquement les services arrêtés "proprement".
Ayant (re)découvert cette fonctionnalité récemment, j'ai déjà relevé un certain nombre de bugs surtout du au fait que ce code n'a pas évolué depuis la 2.2 :

Si tu as encore des questions concernant cette fonctionnalité, viens en discuter avec nous :)
Tu peux bien sûr ouvrir des signalements si tu trouves des bugs précis et avérés.

Amicalement

#2 Mis à jour par Jean-Marc MELET il y a environ 9 ans

Merci Joël pour ces infos. Cette partie de la doc m'avait échappé, c'est bien expliqué en plus.
Du coup je pense qu'on va mettre en place de actions personnalisées. En fait pour certains services, on veut qu'ils soient redémarrés même si le PID est absent car parfois ils ne tournent plus et il n'y a pas non plus le PID donc ils ne sont pas relancés. Est-ce que ça ferait l'affaire si on crée une action sur le modèle action_error existant mais en enlevant la condition

if path.isfile('/var/run/ead/%s.pid'%SERV_NAME):
?

#3 Mis à jour par Joël Cuissinat il y a environ 9 ans

  • Statut changé de En cours à Fermé
  • % réalisé changé de 50 à 100
  • Restant à faire (heures) changé de 0.5 à 0.0

Jean-Marc MELET a écrit :

Merci Joël pour ces infos. Cette partie de la doc m'avait échappé, c'est bien expliqué en plus.
Du coup je pense qu'on va mettre en place de actions personnalisées. En fait pour certains services, on veut qu'ils soient redémarrés même si le PID est absent car parfois ils ne tournent plus et il n'y a pas non plus le PID donc ils ne sont pas relancés. Est-ce que ça ferait l'affaire si on crée une action sur le modèle action_error existant mais en enlevant la condition [...] ?

Oui, c'est exactement ça :)

Formats disponibles : Atom PDF