Script fonctionnel

Problème rencontré : le script fonctionne parfaitement, au détail près qu’il génère six tableaux au lieu de quatre (le dossier URLS contenant bel et bien quatre fichiers d’urls), dont deux doublons.

Solution : afficher les fichiers cachés dans le dossier URLS… Ô surprise, deux fichiers s’étaient immiscés là, des doublons de mes fichiers d’urls.

Capture du 2014-11-29 16:45:01

Capture du 2014-11-29 16:45:28

Capture du 2014-11-29 16:45:53

Capture du 2014-11-29 16:46:14

Capture du 2014-11-29 16:48:10

Idée lumineuse : préciser l’encodage de notre propre page html…

Après une quantité raisonnable de déboires, le script fonctionne et on obtient de splendides tableaux :

Capture du 2014-11-29 16:51:42

Problème : le chinois… Iconv fonctionne mal : il ne semble pas reconnaître l’encodage. Du coup, l’opération de transcodage fonctionne également mal, et les pages censées être en utf-8 sont illisibles (même par un sinophone…). A suivre.

Bonus : Nous attendons avec impatience le petit programme de notre chère collègue Catherine, qui va permettre un meilleur tri des urls : celles qu’on accepte et celles qui correspondent à des pages d’erreur. Protocole : regarder la taille des fichiers texte contenant le dump des urls ; si elle est inférieure à un seuil que nous aurons fixé (2 octets, ce me semble), l’url est out. Cela évitera quelques bugs rencontrés en chemin. Exemple : certaines pages parfaitement acceptables et même en utf-8 (ô joie), ont été étiquetées d’un “BAD” sans appel et reléguées dans la catégorie des pages d’erreur.

Leave a comment