Actions
Bug #1269
closednew input vs group_by issue
Start date:
01/20/2011
Due date:
% Done:
90%
Estimated time:
Description
Le problème s'étant à plusieurs points :
- problème de performance: comparaison des taches pour savoir quelles taches sont faites ou pas => à l'heure actuelle
ind = dprod.index(t.task_input) t = d[ind]
= n xn comparaisons. la comparaison est couteuse parce que la clé de comparaison c'est le dico des task inputs. qui n'est pas hashable.
- problème des group_by: quand on rajoute des inputs à un segment qui groupe : même task input mais dépendance différente. quel nom de sous réperoire utiliser ? conserver 2 versions, écraser ?
Solution potentielle : comparer le tuple des task_id des parents.
Updated by Le Jeune Maude over 14 years ago
- Assigned To set to Le Jeune Maude
- % Done changed from 0 to 30
- comparaison sur parents mise en place. J'ai modifié get_status de tracker pour qu'il renvoit aussi la liste des parents.
- La comparaison se fait sur des strings, genre '[4,5,6]' (liste triée des parents, converties en string) -> à améliorer.
- Problème, exception non gérée : un group_by sur un segment orphelin, alors, il n'y a pas de parents, et pas moyen de savoir s'il faut recalculer ou pas.
- mkdir des répertoires existants : en cours. Exception mise en place au niveau du worker, mais que faire pour glob_seg et get_data_fn dans ce cas ? A voir au niveau du pipeline.
- Gain en performance reste à quantifier
Updated by Le Jeune Maude over 14 years ago
- % Done changed from 30 to 70
- comparaison sur les parents débugguée.
- la comparaison se fait sur des sets (liste non triées)
- problème, exception non gérée : un group_by sur un segment orphelin n'est pas résolu
- mkdir des répertoires existants : géré avec l'attribut version de task.
- Gain en performance: à tester toujours.
Updated by Le Jeune Maude over 14 years ago
- Priority changed from Immediate to Normal
Updated by Le Jeune Maude about 14 years ago
- Priority changed from Normal to Low
- % Done changed from 70 to 90
Final state:
Orphan tasks issue:
task are identified by parent list. For orphan task the
current solution is to use product instead but there is two
exceptions here : group_by and ouput constant (None for
example). In those two cases: if seg_input changes from
main, no recomputation. Is it possible to store parent of
orphan task (phantom) ?
Actions