Project

General

Profile

Tâche #8993

Distribution EOLE - Scénario #8830: Fermer les taches => Évolutions Haute-disponibilité

Corosync

Added by Karim Ayari over 6 years ago. Updated over 6 years ago.

Status:
Fermé
Priority:
Normal
Assigned To:
Start date:
09/24/2014
Due date:
% Done:

100%

Estimated time:
0.25 h
Spent time:
Remaining (hours):
0.0

Description

sur 2 sphynx 2.3 avec la HA activée
le ressource arv était lancée sur les 2 serveurs et la commande crm_mon ne renvoyait plus rien :

Last updated: Tue Sep 23 13:20:20 2014
Stack: openais
Current DC: sphynx8 - partition with quorum
Version: 1.0.8-042548a451fce8400660f6031f4da6f0223dd5dd
2 Nodes configured, 2 expected votes
1 Resources configured.
Online: [ sphynx7 sphynx8 ]

Vu avec Fabrice, une piste : corosync pourrait ne pas aimer les logrotate.
Les ressources doivent rester unmanage tant que les 2 serveurs n'ont pas terminés leur rotation des logs.

-> un lock pourrait-être envoyé au noeud distant

Associated revisions

Revision c3d70103 (diff)
Added by Philippe Caseiro over 6 years ago

tmpl/haute_dispo.logrotate: Ajout d'un sleep au logrotate

On attend quelques secondes pour que les opérations de dialogue entre
les services puissent ce faire sans provoquer d'erreur

fixes #8993 @2h

History

#1 Updated by Fabrice Barconnière over 6 years ago

  • Tracker changed from Anomalie to Bac à idée
  • Project changed from Distribution EOLE to eole-pacemaker
  • Distribution changed from EOLE 2.3 to EOLE 2.4

Plus d'évolution en 2.3.
On trouve des messages d'erreur dans les logs à 6h26 avant que ce phénomène ne survienne. Ça correspond à l'heure de rotation des logs. Dans la configuration logrotate, les ressources sont mises à unmanage (la commande est lancée 2 fois). Quand le logrotate d'un noeud se termine, les ressources sont repassées en manage alors que l'autre noeud n'a pas terminé, ce qui pourrait rendre le cluster instable.

L'idée serait de faire un scp d'un lock (via l'interface de dialogue) sur le noeud distant puis de le supprimer quand il a terminé.
Le premier qui logrotate doit mettre les ressources unmanaged et le dernier qui termine les remet en surveillance.

#2 Updated by Philippe Caseiro over 6 years ago

  • Status changed from Nouveau to Résolu
  • % Done changed from 0 to 100

#3 Updated by Philippe Caseiro over 6 years ago

  • Assigned To set to Philippe Caseiro

#4 Updated by Philippe Caseiro over 6 years ago

  • Parent task set to #8830

#5 Updated by Emmanuel GARETTE over 6 years ago

  • Description updated (diff)
  • Estimated time set to 0.25 h
  • Remaining (hours) set to 0.25

#6 Updated by Fabrice Barconnière over 6 years ago

  • Status changed from Résolu to Fermé
  • Remaining (hours) changed from 0.25 to 0.0

Après un logrotate, le cluster reste stable.

#7 Updated by Karim Ayari over 6 years ago

c'est tout de même dommage qu'une petite modification comme celle-ci ne soit pas portée en 2.3!

Also available in: Atom PDF