Projet

Général

Profil

Tâche #8993

Distribution EOLE - Scénario #8830: Fermer les taches => Évolutions Haute-disponibilité

Corosync

Ajouté par Karim Ayari il y a plus de 9 ans. Mis à jour il y a plus de 9 ans.

Statut:
Fermé
Priorité:
Normal
Assigné à:
Début:
24/09/2014
Echéance:
% réalisé:

100%

Temps estimé:
0.25 h
Temps passé:
Restant à faire (heures):
0.0

Description

sur 2 sphynx 2.3 avec la HA activée
le ressource arv était lancée sur les 2 serveurs et la commande crm_mon ne renvoyait plus rien :

Last updated: Tue Sep 23 13:20:20 2014
Stack: openais
Current DC: sphynx8 - partition with quorum
Version: 1.0.8-042548a451fce8400660f6031f4da6f0223dd5dd
2 Nodes configured, 2 expected votes
1 Resources configured.
Online: [ sphynx7 sphynx8 ]

Vu avec Fabrice, une piste : corosync pourrait ne pas aimer les logrotate.
Les ressources doivent rester unmanage tant que les 2 serveurs n'ont pas terminés leur rotation des logs.

-> un lock pourrait-être envoyé au noeud distant

Révisions associées

Révision c3d70103 (diff)
Ajouté par Philippe Caseiro il y a plus de 9 ans

tmpl/haute_dispo.logrotate: Ajout d'un sleep au logrotate

On attend quelques secondes pour que les opérations de dialogue entre
les services puissent ce faire sans provoquer d'erreur

fixes #8993 @2h

Historique

#1 Mis à jour par Fabrice Barconnière il y a plus de 9 ans

  • Tracker changé de Anomalie à Bac à idée
  • Projet changé de Distribution EOLE à eole-pacemaker
  • Distribution changé de EOLE 2.3 à EOLE 2.4

Plus d'évolution en 2.3.
On trouve des messages d'erreur dans les logs à 6h26 avant que ce phénomène ne survienne. Ça correspond à l'heure de rotation des logs. Dans la configuration logrotate, les ressources sont mises à unmanage (la commande est lancée 2 fois). Quand le logrotate d'un noeud se termine, les ressources sont repassées en manage alors que l'autre noeud n'a pas terminé, ce qui pourrait rendre le cluster instable.

L'idée serait de faire un scp d'un lock (via l'interface de dialogue) sur le noeud distant puis de le supprimer quand il a terminé.
Le premier qui logrotate doit mettre les ressources unmanaged et le dernier qui termine les remet en surveillance.

#2 Mis à jour par Philippe Caseiro il y a plus de 9 ans

  • Statut changé de Nouveau à Résolu
  • % réalisé changé de 0 à 100

#3 Mis à jour par Philippe Caseiro il y a plus de 9 ans

  • Assigné à mis à Philippe Caseiro

#4 Mis à jour par Philippe Caseiro il y a plus de 9 ans

  • Tâche parente mis à #8830

#5 Mis à jour par Emmanuel GARETTE il y a plus de 9 ans

  • Description mis à jour (diff)
  • Temps estimé mis à 0.25 h
  • Restant à faire (heures) mis à 0.25

#6 Mis à jour par Fabrice Barconnière il y a plus de 9 ans

  • Statut changé de Résolu à Fermé
  • Restant à faire (heures) changé de 0.25 à 0.0

Après un logrotate, le cluster reste stable.

#7 Mis à jour par Karim Ayari il y a plus de 9 ans

c'est tout de même dommage qu'une petite modification comme celle-ci ne soit pas portée en 2.3!

Formats disponibles : Atom PDF