Project

General

Profile

Tâche #35543

Scénario #35462: Hâpy 2.9 : vérifier l'intégration des nœuds Hâpy Node et la mise en place d'un cluster (pb de certificats)

Hâpy 2.9 : erreur fatale dans le script postservice/30-one-mng reconfigure

Added by Joël Cuissinat about 1 month ago. Updated 15 days ago.

Status:
Fermé
Priority:
Normal
Assigned To:
Start date:
08/22/2023
Due date:
% Done:

100%

Remaining (hours):
0.0

Description

Lors de la mise en œuvre du mode cluster (test squash HP-003-02), j'ai obtenu ces erreurs lors du reconfigure des serveurs hapy2 et hapy3 et j'ai été obligé de stopper son exécution avec un ctrl+c (NB : en fait, j'ai pas eu la patience des 120 essais !!!)

run-parts: executing /usr/share/eole/postservice/30-one-mng reconfigure
Wait for oned to be startedundefined method `[]' for nil:NilClass
.undefined method `[]' for nil:NilClass
.undefined method `[]' for nil:NilClass
.undefined method `[]' for nil:NilClass
.undefined method `[]' for nil:NilClass
.undefined method `[]' for nil:NilClass

En mode debug, ça donne :

+ main
+ wait_true_retcode 'Wait for oned to be started' 'onecluster show 0 > /dev/null'
+ tries=120
+ ret_code=1
+ i=0
+ echo -n Wait for oned to be started
Wait for oned to be started+ '[' 1 -eq 0 ']'
+ '[' 0 -ge 120 ']'
++ expr 0 + 1
+ i=1
+ sleep 1
+ eval onecluster show 0 '>' /dev/null
++ onecluster show 0
undefined method `[]' for nil:NilClass
+ ret_code=255

Si j'essaie de relancer une instance sur hapy1, cette fois ce sont les services opennebula-flow et opennebula-gate qui ne démarrent plus et le serveur est planté...

run-parts: executing /usr/share/eole/postservice/30-one-mng instance
Wait for oned to be started.
The default cluster name is already "default" 
HOST named default not found.
HOST named default not found.
Host default already present in cluster 
nil versions are discouraged and will be deprecated in Rubygems 4
Hosts sync OK
Configuring datastores for Cluster
Updating system-default datastore
[one.datastore.update] Error getting datastore [100].
Updating images-disques datastore
[one.datastore.update] Error getting datastore [101].
Updating iso-images datastore
[one.datastore.update] Error getting datastore [102].
run-parts: executing /usr/share/eole/postservice/30-one-node instance
run-parts: executing /usr/share/eole/postservice/31-one-netmng instance
OneClient: update network named 'CR_aca'
postservice.opennebula.network - Update of virtual network with template /tmp/oneVnet-cy7urjze failed
postservice.opennebula.network - Error Updating virtual network CR_aca
run-parts: /usr/share/eole/postservice/31-one-netmng exited with return code 1
Erreur : postservice

NB : reproduit 2 fois, j'ai pu gagner un peu de temps en réutilisant les configurations sauvegardées dans /mnt/eole-ci-tests/output/jojo/hapy*.eol ;)

Associated revisions

Revision a9096c66 (diff)
Added by Benjamin Bohard about 1 month ago

L’intégration des nœuds nécessite un leader.

Ref #35543

Revision 78fbe21c (diff)
Added by Benjamin Bohard about 1 month ago

L’élection du leader est problématique avant synchronisation de la DB.

Ref #35543

Revision fab8a65d (diff)
Added by Benjamin Bohard 22 days ago

La liste des nœuds n’est pas stockée dans un tableau.

Ref #35543

History

#1 Updated by Joël Cuissinat about 1 month ago

  • Description updated (diff)

#2 Updated by Joël Cuissinat about 1 month ago

  • Description updated (diff)

#3 Updated by Joël Cuissinat about 1 month ago

  • Parent task set to #35462

#4 Updated by Benjamin Bohard about 1 month ago

L’erreur ne semble pas systématique. Dans mon itération du test, seul l’un des deux hapy "secondaire" présente le problème. Coïncidence ou pas, son intégration a pris beaucoup de temps en comparaison avec celle de l’autre.

#5 Updated by Benjamin Bohard about 1 month ago

Lors d’une nouvelle tentative, en redémarrant oneflow si nécessaire sur les nœuds, l’intégration semble bien se passer et les reconfigure passent plus ou moins : il y a des avertissements sur l’exécution des hooks parce qu’aucun leader n’est identifié à ce moment.

#6 Updated by Benjamin Bohard about 1 month ago

  • Status changed from Nouveau to En cours

#7 Updated by Benjamin Bohard about 1 month ago

  • Description updated (diff)
  • Assigned To set to Benjamin Bohard

#8 Updated by Benjamin Bohard about 1 month ago

Le service opennebula-flow s’arrête (et redémarre) inopinément

août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Trying to enqueue job opennebula-flow.service/restart/replace
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Installed new job opennebula-flow.service/restart as 560022
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Enqueued job opennebula-flow.service/restart as 560022
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Job 560022 opennebula-flow.service/restart finished, result=done
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Converting job opennebula-flow.service/restart -> opennebula-flow.service/start
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: AssertFileNotEmpty=/var/lib/one/.one/oneflow_auth succeeded.
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Failed to set 'io.bfq.weight' attribute on '/system.slice/opennebula-flow.service' to '100': No such file or directory
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: About to execute /usr/sbin/logrotate -f /etc/logrotate.d/opennebula-flow -s /var/lib/one/.logrotate.status
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Forked /usr/sbin/logrotate as 139284
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Changed dead -> start-pre
août 24 15:27:22 hapy2 systemd[1]: Starting OpenNebula Flow Service...
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: User lookup succeeded: uid=9869 gid=9869
août 24 15:27:22 hapy2 systemd[139284]: opennebula-flow.service: Executing: /usr/sbin/logrotate -f /etc/logrotate.d/opennebula-flow -s /var/lib/one/.logrotate.status
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Child 139284 belongs to opennebula-flow.service.
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Control process exited, code=exited, status=0/SUCCESS (success)
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Running next control command for state start-pre.
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: About to execute sh "gzip -9 /var/log/one/oneflow.log-* &" 
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Forked sh as 139285
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: User lookup succeeded: uid=9869 gid=9869
août 24 15:27:22 hapy2 systemd[139285]: opennebula-flow.service: Executing: sh "gzip -9 /var/log/one/oneflow.log-* &" 
août 24 15:27:22 hapy2 opennebula-flow[139285]: sh: gzip -9 /var/log/one/oneflow.log-* &: Aucun fichier ou dossier de ce type
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Child 139285 belongs to opennebula-flow.service.
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Control process exited, code=exited, status=127/n/a (success)
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Got final SIGCHLD for state start-pre.
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Passing 0 fds to service
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: About to execute /usr/bin/ruby /usr/lib/one/oneflow/oneflow-server.rb
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Forked /usr/bin/ruby as 139286
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Changed start-pre -> running
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Job 560022 opennebula-flow.service/start finished, result=done
août 24 15:27:22 hapy2 systemd[1]: Started OpenNebula Flow Service.
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: Failed to send unit change signal for opennebula-flow.service: Connection reset by peer
août 24 15:27:22 hapy2 systemd[139286]: opennebula-flow.service: Executing: /usr/bin/ruby /usr/lib/one/oneflow/oneflow-server.rb
août 24 15:27:22 hapy2 systemd[1]: opennebula-flow.service: User lookup succeeded: uid=9869 gid=9869
août 24 15:27:22 hapy2 opennebula-flow[139286]: == Sinatra (v3.0.3) has taken the stage on 2474 for development with backup from Thin
août 24 15:27:25 hapy2 systemd[1]: opennebula-flow.service: Trying to enqueue job opennebula-flow.service/stop/replace
août 24 15:27:25 hapy2 systemd[1]: opennebula-flow.service: Installed new job opennebula-flow.service/stop as 560173
août 24 15:27:25 hapy2 systemd[1]: opennebula-flow.service: Enqueued job opennebula-flow.service/stop as 560173
août 24 15:27:25 hapy2 systemd[1]: opennebula-flow.service: Changed running -> stop-sigterm
août 24 15:27:25 hapy2 systemd[1]: Stopping OpenNebula Flow Service...
août 24 15:27:26 hapy2 opennebula-flow[139286]: == Sinatra has ended his set (crowd applauds)
août 24 15:27:26 hapy2 opennebula-flow[139286]: 2023-08-24 15:27:22 +0200 Thin web server (v1.8.1 codename Infinite Smoothie)
août 24 15:27:26 hapy2 opennebula-flow[139286]: 2023-08-24 15:27:22 +0200 Maximum connections set to 1024
août 24 15:27:26 hapy2 opennebula-flow[139286]: 2023-08-24 15:27:22 +0200 Listening on 127.0.0.1:2474, CTRL+C to stop
août 24 15:27:26 hapy2 opennebula-flow[139286]: 2023-08-24 15:27:26 +0200 Stopping ...
août 24 15:27:26 hapy2 systemd[1]: opennebula-flow.service: Child 139286 belongs to opennebula-flow.service.
août 24 15:27:26 hapy2 systemd[1]: opennebula-flow.service: Main process exited, code=exited, status=0/SUCCESS (success)
août 24 15:27:26 hapy2 systemd[1]: opennebula-flow.service: Deactivated successfully.
août 24 15:27:26 hapy2 systemd[1]: opennebula-flow.service: Service restart not allowed.
août 24 15:27:26 hapy2 systemd[1]: opennebula-flow.service: Changed stop-sigterm -> dead
août 24 15:27:26 hapy2 systemd[1]: opennebula-flow.service: Job 560173 opennebula-flow.service/stop finished, result=done
août 24 15:27:26 hapy2 systemd[1]: Stopped OpenNebula Flow Service.
août 24 15:27:26 hapy2 systemd[1]: opennebula-flow.service: Consumed 691ms CPU time.

#9 Updated by Benjamin Bohard about 1 month ago

  • Status changed from En cours to À valider

#10 Updated by Laurent Gourvenec 19 days ago

  • Status changed from À valider to Résolu

#11 Updated by Joël Cuissinat 15 days ago

  • % Done changed from 0 to 100

J'ai un doute sur le fait que les hôtes seraient pré-enregistrés ?

root@hapy1's password: 

 * Enregistrement du noeud

[one.host.allocate] NAME is already taken by HOST 0.
Hosts register failed

Malgré ces erreurs, le cluster semble fonctionnel ;)

#12 Updated by Joël Cuissinat 15 days ago

  • Status changed from Résolu to Fermé
  • Remaining (hours) set to 0.0

Also available in: Atom PDF