Tâche #8993
Distribution EOLE - Scénario #8830: Fermer les taches => Évolutions Haute-disponibilité
Corosync
Description
sur 2 sphynx 2.3 avec la HA activée
le ressource arv était lancée sur les 2 serveurs et la commande crm_mon ne renvoyait plus rien :
Last updated: Tue Sep 23 13:20:20 2014
Stack: openais
Current DC: sphynx8 - partition with quorum
Version: 1.0.8-042548a451fce8400660f6031f4da6f0223dd5dd
2 Nodes configured, 2 expected votes
1 Resources configured.
Online: [ sphynx7 sphynx8 ]
Vu avec Fabrice, une piste : corosync pourrait ne pas aimer les logrotate.
Les ressources doivent rester unmanage tant que les 2 serveurs n'ont pas terminés leur rotation des logs.
-> un lock pourrait-être envoyé au noeud distant
Associated revisions
tmpl/haute_dispo.logrotate: Ajout d'un sleep au logrotate
On attend quelques secondes pour que les opérations de dialogue entre
les services puissent ce faire sans provoquer d'erreur
fixes #8993 @2h
History
#1 Updated by Fabrice Barconnière over 6 years ago
- Tracker changed from Anomalie to Bac à idée
- Project changed from Distribution EOLE to eole-pacemaker
- Distribution changed from EOLE 2.3 to EOLE 2.4
Plus d'évolution en 2.3.
On trouve des messages d'erreur dans les logs à 6h26 avant que ce phénomène ne survienne. Ça correspond à l'heure de rotation des logs. Dans la configuration logrotate, les ressources sont mises à unmanage (la commande est lancée 2 fois). Quand le logrotate d'un noeud se termine, les ressources sont repassées en manage alors que l'autre noeud n'a pas terminé, ce qui pourrait rendre le cluster instable.
L'idée serait de faire un scp d'un lock (via l'interface de dialogue) sur le noeud distant puis de le supprimer quand il a terminé.
Le premier qui logrotate doit mettre les ressources unmanaged et le dernier qui termine les remet en surveillance.
#2 Updated by Philippe Caseiro over 6 years ago
- Status changed from Nouveau to Résolu
- % Done changed from 0 to 100
Appliqué par commit c3d7010393a688bb9e5010a4daa7d25409c92d71.
#3 Updated by Philippe Caseiro over 6 years ago
- Assigned To set to Philippe Caseiro
#4 Updated by Philippe Caseiro over 6 years ago
- Parent task set to #8830
#5 Updated by Emmanuel GARETTE over 6 years ago
- Description updated (diff)
- Estimated time set to 0.25 h
- Remaining (hours) set to 0.25
#6 Updated by Fabrice Barconnière over 6 years ago
- Status changed from Résolu to Fermé
- Remaining (hours) changed from 0.25 to 0.0
Après un logrotate, le cluster reste stable.
#7 Updated by Karim Ayari over 6 years ago
c'est tout de même dommage qu'une petite modification comme celle-ci ne soit pas portée en 2.3!