Tâche #8993: Corosync - eole-pacemaker - Ensemble Ouvert Libre Évolutif

Tâche #8993

Distribution EOLE - Scénario #8830: Fermer les taches => Évolutions Haute-disponibilité

Corosync

Ajouté par Karim Ayari il y a plus de 11 ans. Mis à jour il y a plus de 11 ans.

Statut:

Fermé

Priorité:

Normal

Assigné à:

Philippe Caseiro

Version cible:

Distribution EOLE - sprint 2014 48-49

Début:

24/09/2014

Echéance:

% réalisé:

100%

Temps estimé:

0.25 h

Temps passé:

2.25 h

Restant à faire (heures):

0.0

Description

sur 2 sphynx 2.3 avec la HA activée
le ressource arv était lancée sur les 2 serveurs et la commande crm_mon ne renvoyait plus rien :

Last updated: Tue Sep 23 13:20:20 2014
Stack: openais
Current DC: sphynx8 - partition with quorum
Version: 1.0.8-042548a451fce8400660f6031f4da6f0223dd5dd
2 Nodes configured, 2 expected votes
1 Resources configured.

Online: [ sphynx7 sphynx8 ]

Vu avec Fabrice, une piste : corosync pourrait ne pas aimer les logrotate.
Les ressources doivent rester unmanage tant que les 2 serveurs n'ont pas terminés leur rotation des logs.

-> un lock pourrait-être envoyé au noeud distant

Révisions associées

Révision c3d70103 (diff)
Ajouté par Philippe Caseiro il y a plus de 11 ans

tmpl/haute_dispo.logrotate: Ajout d'un sleep au logrotate

On attend quelques secondes pour que les opérations de dialogue entre
les services puissent ce faire sans provoquer d'erreur

fixes #8993 @2h

Historique

#1 Mis à jour par Fabrice Barconnière il y a plus de 11 ans

Tracker changé de Anomalie à Bac à idée
Projet changé de Distribution EOLE à eole-pacemaker
Distribution changé de EOLE 2.3 à EOLE 2.4

Plus d'évolution en 2.3.
On trouve des messages d'erreur dans les logs à 6h26 avant que ce phénomène ne survienne. Ça correspond à l'heure de rotation des logs. Dans la configuration logrotate, les ressources sont mises à unmanage (la commande est lancée 2 fois). Quand le logrotate d'un noeud se termine, les ressources sont repassées en manage alors que l'autre noeud n'a pas terminé, ce qui pourrait rendre le cluster instable.

L'idée serait de faire un scp d'un lock (via l'interface de dialogue) sur le noeud distant puis de le supprimer quand il a terminé.
Le premier qui logrotate doit mettre les ressources unmanaged et le dernier qui termine les remet en surveillance.