cubicweb-datacat #5099509 proposition : scripts [open]

Très souvent les fichiers transmis sont au format csv mais avec un mauvais séparateur entre les champs et un mauvais encodage.

Il pourrait donc etre intéressant de proposer un script de validation sur ces 2 conditions puis un script de transformation qui encode en UTF-8 et qui remplace le séparateur ; par le séparateur ,

Dans d'autres cas les fichiers sont transmis en xls ou xlsx et il faudrait les transformer en csv avec les mêmes règles

Pour la partie tourisme, plusieurs fichiers répondent au même formalisme. Ils ont été scindés en plusieurs fichiers par sous-thématique. Pour favoriser l'enrichissement il serait utile de proposer un jeu de données global regroupant ces différents dataset

Enfin, le réseau SIRTAQUI a fourni un fichier csv de description des champs. Cela permet d'envisager de plublier ces données en csv comme présenté dans cette recommandation http://www.w3.org/TR/2014/WD-tabular-metadata-20140710/

 

Ces idées sont à discuter et devront bien entendu faire l'objet d'une commande

prioritynormal
typebug
done in<not specified>
closed by<not specified>