Project

General

Profile

Scénario #24324

Updated by Gilles Grandgérard 6 months ago

h3. Demande originale

Sur un serveur, la sauvegarde s'en lancé à un moment ou /tmp était plein.

Cela a généré un erreur :

<pre>
2018-05-22T22:00:06.866734+02:00 scribe.colysepedago.lan bareos-dir: scribe-dir JobId 1208: Fatal error: Client "" RunScript failed.
2018-05-22T22:00:06.910038+02:00 scribe.colysepedago.lan bareos-dir: scribe-dir JobId 1208: Fatal error: sql_get.c:380 sql_get.c:380 query SELECT VolumeName,MAX(VolIndex) FROM JobMedia,Media WHERE JobMedia.JobId=1208 AND JobMedia.MediaId=Media.MediaId GROUP BY VolumeName ORDER BY 2 ASC failed:
2018-05-22T22:00:06.910042+02:00 scribe.colysepedago.lan bareos-dir: Got error 28 from storage engine
</pre>

aucun mail n'est parti (a cause du problème de place ... ballot) :

<pre>
2018-05-22T22:00:06.866734+02:00 scribe.colysepedago.lan bareos-dir: scribe-dir JobId 1208: Fatal error: Client "" RunScript failed.
2018-05-22T22:00:06.910038+02:00 scribe.colysepedago.lan bareos-dir: scribe-dir JobId 1208: Fatal error: sql_get.c:380 sql_get.c:380 query SELECT VolumeName,MAX(VolIndex) FROM JobMedia,Media WHERE JobMedia.JobId=1208 AND JobMedia.MediaId=Media.MediaId GROUP BY VolumeName ORDER BY 2 ASC failed:
2018-05-22T22:00:06.910042+02:00 scribe.colysepedago.lan bareos-dir: Got error 28 from storage engine
</pre>

La sauvegarde se retrouve bloqué mais encore en cours. Les autres tâches s'empile donc derrière sans jamais se faire.

Aujourd'hui on défini bien " Max Run Time = <time> ", mais comme la tâche n'est pas démarré, elle n'est jamais annulé automatiquement.

Je propose qu'on puisse maintenant définir également " Max Start Delay = <time> " et/ou " Max Run Sched Time = <time> ". Voir http://doc.bareos.org/master/html/bareos-manual-main-reference.html#directiveDirJobMax%20Run%20Time pour les explications.

h3. Solutions à mettre en œuvre

* A faire en 2.7.1
* Vérifier que le répertoire /tmp a un minimum d'espace (1Mo ?)
* Définir un "Max Start Delay = 43200" et "Max Run Sched Time = 86000" (sans variable Creole dans un premier temps)

h3. Critères d'acceptation

* Crée les mêmes conditions d'erreur, vérifier que les Job sont bien annulés automatiquement au bout des délai. (pour la démo, nous pouvons utiliser des durées inférieures ...)
* Vérifier que le mail est bien émis
* Dans diagnose, la sauvegarde doit être en erreur.

Back