Tâche #8993
Distribution EOLE - Scénario #8830: Fermer les taches => Évolutions Haute-disponibilité
Corosync
Description
sur 2 sphynx 2.3 avec la HA activée
le ressource arv était lancée sur les 2 serveurs et la commande crm_mon ne renvoyait plus rien :
Last updated: Tue Sep 23 13:20:20 2014
Stack: openais
Current DC: sphynx8 - partition with quorum
Version: 1.0.8-042548a451fce8400660f6031f4da6f0223dd5dd
2 Nodes configured, 2 expected votes
1 Resources configured.
Online: [ sphynx7 sphynx8 ]
Vu avec Fabrice, une piste : corosync pourrait ne pas aimer les logrotate.
Les ressources doivent rester unmanage tant que les 2 serveurs n'ont pas terminés leur rotation des logs.
-> un lock pourrait-être envoyé au noeud distant
Révisions associées
tmpl/haute_dispo.logrotate: Ajout d'un sleep au logrotate
On attend quelques secondes pour que les opérations de dialogue entre
les services puissent ce faire sans provoquer d'erreur
fixes #8993 @2h
Historique
#1 Mis à jour par Fabrice Barconnière il y a plus de 9 ans
- Tracker changé de Anomalie à Bac à idée
- Projet changé de Distribution EOLE à eole-pacemaker
- Distribution changé de EOLE 2.3 à EOLE 2.4
Plus d'évolution en 2.3.
On trouve des messages d'erreur dans les logs à 6h26 avant que ce phénomène ne survienne. Ça correspond à l'heure de rotation des logs. Dans la configuration logrotate, les ressources sont mises à unmanage (la commande est lancée 2 fois). Quand le logrotate d'un noeud se termine, les ressources sont repassées en manage alors que l'autre noeud n'a pas terminé, ce qui pourrait rendre le cluster instable.
L'idée serait de faire un scp d'un lock (via l'interface de dialogue) sur le noeud distant puis de le supprimer quand il a terminé.
Le premier qui logrotate doit mettre les ressources unmanaged et le dernier qui termine les remet en surveillance.
#2 Mis à jour par Philippe Caseiro il y a plus de 9 ans
- Statut changé de Nouveau à Résolu
- % réalisé changé de 0 à 100
Appliqué par commit c3d7010393a688bb9e5010a4daa7d25409c92d71.
#3 Mis à jour par Philippe Caseiro il y a plus de 9 ans
- Assigné à mis à Philippe Caseiro
#4 Mis à jour par Philippe Caseiro il y a plus de 9 ans
- Tâche parente mis à #8830
#5 Mis à jour par Emmanuel GARETTE il y a plus de 9 ans
- Description mis à jour (diff)
- Temps estimé mis à 0.25 h
- Restant à faire (heures) mis à 0.25
#6 Mis à jour par Fabrice Barconnière il y a plus de 9 ans
- Statut changé de Résolu à Fermé
- Restant à faire (heures) changé de 0.25 à 0.0
Après un logrotate, le cluster reste stable.
#7 Mis à jour par Karim Ayari il y a plus de 9 ans
c'est tout de même dommage qu'une petite modification comme celle-ci ne soit pas portée en 2.3!