Projet

Général

Profil

Tâche #35543

Scénario #35462: Hâpy 2.9 : vérifier l'intégration des nœuds Hâpy Node et la mise en place d'un cluster (pb de certificats)

Hâpy 2.9 : erreur fatale dans le script postservice/30-one-mng reconfigure

Ajouté par Joël Cuissinat il y a 9 mois. Mis à jour il y a 8 mois.

Statut:
Fermé
Priorité:
Normal
Assigné à:
Début:
22/08/2023
Echéance:
% réalisé:

100%

Restant à faire (heures):
0.0

Description

Lors de la mise en œuvre du mode cluster (test squash HP-003-02), j'ai obtenu ces erreurs lors du reconfigure des serveurs hapy2 et hapy3 et j'ai été obligé de stopper son exécution avec un ctrl+c (NB : en fait, j'ai pas eu la patience des 120 essais !!!)

run-parts: executing /usr/share/eole/postservice/30-one-mng reconfigure
Wait for oned to be startedundefined method `[]' for nil:NilClass
.undefined method `[]' for nil:NilClass
.undefined method `[]' for nil:NilClass
.undefined method `[]' for nil:NilClass
.undefined method `[]' for nil:NilClass
.undefined method `[]' for nil:NilClass

En mode debug, ça donne :

+ main
+ wait_true_retcode 'Wait for oned to be started' 'onecluster show 0 > /dev/null'
+ tries=120
+ ret_code=1
+ i=0
+ echo -n Wait for oned to be started
Wait for oned to be started+ '[' 1 -eq 0 ']'
+ '[' 0 -ge 120 ']'
++ expr 0 + 1
+ i=1
+ sleep 1
+ eval onecluster show 0 '>' /dev/null
++ onecluster show 0
undefined method `[]' for nil:NilClass
+ ret_code=255

Si j'essaie de relancer une instance sur hapy1, cette fois ce sont les services opennebula-flow et opennebula-gate qui ne démarrent plus et le serveur est planté...

run-parts: executing /usr/share/eole/postservice/30-one-mng instance
Wait for oned to be started.
The default cluster name is already "default" 
HOST named default not found.
HOST named default not found.
Host default already present in cluster 
nil versions are discouraged and will be deprecated in Rubygems 4
Hosts sync OK
Configuring datastores for Cluster
Updating system-default datastore
[one.datastore.update] Error getting datastore [100].
Updating images-disques datastore
[one.datastore.update] Error getting datastore [101].
Updating iso-images datastore
[one.datastore.update] Error getting datastore [102].
run-parts: executing /usr/share/eole/postservice/30-one-node instance
run-parts: executing /usr/share/eole/postservice/31-one-netmng instance
OneClient: update network named 'CR_aca'
postservice.opennebula.network - Update of virtual network with template /tmp/oneVnet-cy7urjze failed
postservice.opennebula.network - Error Updating virtual network CR_aca
run-parts: /usr/share/eole/postservice/31-one-netmng exited with return code 1
Erreur : postservice

NB : reproduit 2 fois, j'ai pu gagner un peu de temps en réutilisant les configurations sauvegardées dans /mnt/eole-ci-tests/output/jojo/hapy*.eol ;)

Révisions associées

Révision a9096c66 (diff)
Ajouté par Benjamin Bohard il y a 8 mois

L’intégration des nœuds nécessite un leader.

Ref #35543

Révision 78fbe21c (diff)
Ajouté par Benjamin Bohard il y a 8 mois

L’élection du leader est problématique avant synchronisation de la DB.

Ref #35543

Révision fab8a65d (diff)
Ajouté par Benjamin Bohard il y a 8 mois

La liste des nœuds n’est pas stockée dans un tableau.

Ref #35543

Historique

#1 Mis à jour par Joël Cuissinat il y a 9 mois

  • Description mis à jour (diff)

#2 Mis à jour par Joël Cuissinat il y a 9 mois

  • Description mis à jour (diff)

#3 Mis à jour par Joël Cuissinat il y a 9 mois

  • Tâche parente mis à #35462

#4 Mis à jour par Benjamin Bohard il y a 9 mois

L’erreur ne semble pas systématique. Dans mon itération du test, seul l’un des deux hapy "secondaire" présente le problème. Coïncidence ou pas, son intégration a pris beaucoup de temps en comparaison avec celle de l’autre.

#5 Mis à jour par Benjamin Bohard il y a 9 mois

Lors d’une nouvelle tentative, en redémarrant oneflow si nécessaire sur les nœuds, l’intégration semble bien se passer et les reconfigure passent plus ou moins : il y a des avertissements sur l’exécution des hooks parce qu’aucun leader n’est identifié à ce moment.

#6 Mis à jour par Benjamin Bohard il y a 9 mois

  • Statut changé de Nouveau à En cours

#7 Mis à jour par Benjamin Bohard il y a 9 mois

  • Description mis à jour (diff)
  • Assigné à mis à Benjamin Bohard

#8 Mis à jour par Benjamin Bohard il y a 9 mois

Le service opennebula-flow s’arrête (et redémarre) inopinément

août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Trying to enqueue job opennebula-flow.service/restart/replace
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Installed new job opennebula-flow.service/restart as 560022
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Enqueued job opennebula-flow.service/restart as 560022
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Job 560022 opennebula-flow.service/restart finished, result=done
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Converting job opennebula-flow.service/restart -> opennebula-flow.service/start
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: AssertFileNotEmpty=/var/lib/one/.one/oneflow_auth succeeded.
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Failed to set 'io.bfq.weight' attribute on '/system.slice/opennebula-flow.service' to '100': No such file or directory
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: About to execute /usr/sbin/logrotate -f /etc/logrotate.d/opennebula-flow -s /var/lib/one/.logrotate.status
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Forked /usr/sbin/logrotate as 139284
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Changed dead -> start-pre
août 24 15:27:22 hapy2 systemd[1]: Starting OpenNebula Flow Service...
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: User lookup succeeded: uid=9869 gid=9869
août 24 15:27:22 hapy2 systemd[139284]: opennebula-flow.service: Executing: /usr/sbin/logrotate -f /etc/logrotate.d/opennebula-flow -s /var/lib/one/.logrotate.status
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Child 139284 belongs to opennebula-flow.service.
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Control process exited, code=exited, status=0/SUCCESS (success)
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Running next control command for state start-pre.
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: About to execute sh "gzip -9 /var/log/one/oneflow.log-* &" 
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Forked sh as 139285
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: User lookup succeeded: uid=9869 gid=9869
août 24 15:27:22 hapy2 systemd[139285]: opennebula-flow.service: Executing: sh "gzip -9 /var/log/one/oneflow.log-* &" 
août 24 15:27:22 hapy2 opennebula-flow[139285]: sh: gzip -9 /var/log/one/oneflow.log-* &: Aucun fichier ou dossier de ce type
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Child 139285 belongs to opennebula-flow.service.
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Control process exited, code=exited, status=127/n/a (success)
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Got final SIGCHLD for state start-pre.
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Passing 0 fds to service
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: About to execute /usr/bin/ruby /usr/lib/one/oneflow/oneflow-server.rb
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Forked /usr/bin/ruby as 139286
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Changed start-pre -> running
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Job 560022 opennebula-flow.service/start finished, result=done
août 24 15:27:22 hapy2 systemd[1]: Started OpenNebula Flow Service.
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Failed to send unit change signal for opennebula-flow.service: Connection reset by peer
août 24 15:27:22 hapy2 systemd[139286]: opennebula-flow.service: Executing: /usr/bin/ruby /usr/lib/one/oneflow/oneflow-server.rb
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: User lookup succeeded: uid=9869 gid=9869
août 24 15:27:22 hapy2 opennebula-flow[139286]: == Sinatra (v3.0.3) has taken the stage on 2474 for development with backup from Thin
août 24 15:27:25 hapy2 systemd[1]: opennebula-flow.service: Trying to enqueue job opennebula-flow.service/stop/replace
août 24 15:27:25 hapy2 systemd[1]: opennebula-flow.service: Installed new job opennebula-flow.service/stop as 560173
août 24 15:27:25 hapy2 systemd[1]: opennebula-flow.service: Enqueued job opennebula-flow.service/stop as 560173
août 24 15:27:25 hapy2 systemd[1]: opennebula-flow.service: Changed running -> stop-sigterm
août 24 15:27:25 hapy2 systemd[1]: Stopping OpenNebula Flow Service...
août 24 15:27:26 hapy2 opennebula-flow[139286]: == Sinatra has ended his set (crowd applauds)
août 24 15:27:26 hapy2 opennebula-flow[139286]: 2023-08-24 15:27:22 +0200 Thin web server (v1.8.1 codename Infinite Smoothie)
août 24 15:27:26 hapy2 opennebula-flow[139286]: 2023-08-24 15:27:22 +0200 Maximum connections set to 1024
août 24 15:27:26 hapy2 opennebula-flow[139286]: 2023-08-24 15:27:22 +0200 Listening on 127.0.0.1:2474, CTRL+C to stop
août 24 15:27:26 hapy2 opennebula-flow[139286]: 2023-08-24 15:27:26 +0200 Stopping ...
août 24 15:27:26 hapy2 systemd[1]: opennebula-flow.service: Child 139286 belongs to opennebula-flow.service.
août 24 15:27:26 hapy2 systemd[1]: opennebula-flow.service: Main process exited, code=exited, status=0/SUCCESS (success)
août 24 15:27:26 hapy2 systemd[1]: opennebula-flow.service: Deactivated successfully.
août 24 15:27:26 hapy2 systemd[1]: opennebula-flow.service: Service restart not allowed.
août 24 15:27:26 hapy2 systemd[1]: opennebula-flow.service: Changed stop-sigterm -> dead
août 24 15:27:26 hapy2 systemd[1]: opennebula-flow.service: Job 560173 opennebula-flow.service/stop finished, result=done
août 24 15:27:26 hapy2 systemd[1]: Stopped OpenNebula Flow Service.
août 24 15:27:26 hapy2 systemd[1]: opennebula-flow.service: Consumed 691ms CPU time.

#9 Mis à jour par Benjamin Bohard il y a 8 mois

  • Statut changé de En cours à À valider

#10 Mis à jour par Laurent Gourvenec il y a 8 mois

  • Statut changé de À valider à Résolu

#11 Mis à jour par Joël Cuissinat il y a 8 mois

  • % réalisé changé de 0 à 100

J'ai un doute sur le fait que les hôtes seraient pré-enregistrés ?

root@hapy1's password: 

 * Enregistrement du noeud

[one.host.allocate] NAME is already taken by HOST 0.
Hosts register failed

Malgré ces erreurs, le cluster semble fonctionnel ;)

#12 Mis à jour par Joël Cuissinat il y a 8 mois

  • Statut changé de Résolu à Fermé
  • Restant à faire (heures) mis à 0.0

Formats disponibles : Atom PDF