Ouf, j'ai enfin réussi à mettre po4a sur mon Mac.
Pas de paquet chez Homebrew, un truc qui ne marche pas chez Macport, et enfin, chez Fink, une version qui tourne.
Avant de réaliser qu'il me restait Fink à vérifier, j'avais même essayé d'installer une petite Debian dans VirtualBox, mais là le fun c'était d'installer le dossier partagé entre "Virtual" Debian et OSX, et ça m'a pris ma matinée.
L'avantage c'est que j'ai quand même constaté que Emacs y démarrait au quart de tour alors que dans Terminal sur OSX, il me faut bien 5-6 secondes...
Donc voilà. Merci infiniment à l'équipe de po4a pour cet outil magnifique et voici les chiffres :
le manuel d'emacs
la référence d'emacs lisp
et l'introduction à la programmation en emacs lisp
même si j'imagine qu'il y a plein de trucs qui ne sont pas à traduire genre des lignes de code, etc., ça fait quand même au total près de 850 000 mots en première approximation (dans OmegaT). J'avais fait une première estimation à 900 000 mots basée sur les texi il y a longtemps...
Comme il a été dit à cette époque, on a déjà du matériel traduit. Entre autres, un manuel de la version 21.0.100 publié sur le site de Linux France, avec les sources texi.
Le problème est que sur le site FTP de gnu, il n'y a pas de version 21.0.100, et la version la plus récente disponible est une 21.1.
Les sources hébergées chez Linux France ne recouvrent pas tout le manuel. Seulement les fichiers suivants:
basic.texi
buffers.texi
commands.texi
display.texi
emacs.texi
entering.texi
files.texi
fixit.texi
frames.texi
help.texi
indent.texi
killing.texi
m-x.texi
major.texi
mark.texi
mini.texi
mule.texi
regs.texi
screen.texi
search.texi
windows.texi
sachant que les fichiers correspondants de la version anglaise on des chaînes en plus pour la plupart puisqu'ils sont plus récents.
Pour créer un corpus bilingue de référence par paragraphe qui pourra être converti soit en PO soit en TMX pour les traducteurs il faut aligner manuellement les fichiers puisqu'ils sont en toute probabilité non symétriques. En comparant la structure des texi j'ai réalisé que leur forme "relativement" libre ne se prêtait pas à un alignement simple entre les deux langues. Donc je suis passé par po4a.
Pour simplifier encore plus, une fois les PO créés dans leurs langues respectives, j'ai retiré les informations qui gênaient l'alignement (no-wrap, msgstr, mise des paragraphes sur une ligne, etc.) et j'ai collé tout ça dans un fichier Calc avec un fichier texi par feuille.
Après, c'est de l'alignement "à vue". Quand on voit un décalage d'un côté, on regarde ce qui est en trop, on élimine si nécessaire (en général les chaînes anglaises qui sont en surplus, des fois des chaînes françaises qui ont été ajoutées pour créer l'index).
Voilà. Après de longues heures dans Calc, les fichiers sont alignés.
C'est seulement après que j'ai réalisé que la version française était passée à côté d'une correction orthographique, donc hop, passage à la moulinette Antidote, près de 10,000 erreurs (typographie, mots anglais inclus, etc.) dont une quantité non négligeable d'« insére » pour « insère ».
Comme j'ai décidé de travailler dans OmegaT, ce corpus bilingue va être converti en TMX. J'ai un utilitaire qui avant était autonome mais maintenant n'existe que comme "outil" du Translation Studio de Heartsome (passé en GPL avec sa version 8), il s'agit du "CSV to TMX converter".
Avant de mettre tout ça en TMX, je retire quand même les lignes qui me servaient de repères dans l'alignement et voilà, j'ai une TMX qui reflète la traduction existante et qui est relativement correcte.
Pour ne pas être étouffé par l'ampleur de la tâche, j'ai décidé de travailler un PO à la fois, et en de commencer par les POs qui ont été traduits précédemment.
À ce jour, j'ai (re-)traduit basic/buffers/commands et je suis donc sur display. display est énorme. Il contient autant de mots que la somme des trois précédents (10 000 sur 20 000), et puis l'ensemble est très bavard.
J'ai fait des choix de terminologie aussi, parfois un peu radicaux. Par exemple "kill". Il n'y a aucune raison de traduire ça par "détruire" comme ça a été fait. Pour des éléments du tampon on peut tourner ça en "couper" et pour le tampon ou la fenêtre et le cadre on peut utiliser "fermer" ou "supprimer". Pareil pour "key", quand il s'agit parfois de "touche", on a beaucoup de "séquence" également.
Le but est de créer un truc qui se lise, sans trop de néologismes, et qui permette aux francophones pas forcément anglophones qui s'intéressent à Emacs de plonger dans le manuel et d'en ressortir plus "savants".
Les chiffres sont les suivants pour les fichiers qui ont déjà une traduction :
Project Statistics
                 	Segments	 Words	#Files
Total:           	    6436	104252	    20
Remaining:       	    3936	 80601	    17
Unique:          	    5858	101633	    20
Unique Remaining:	    3738	 79777	    17
Individual File Statistics:
File Name          	Total Words	Remaining Words
basic.texi.fr.po   	       5048	              0
buffers.texi.fr.po 	       4363	              0
commands.texi.fr.po	       1389	              0
display.texi.fr.po 	      10682	          10096
emacs.texi.fr.po   	       8807	           7564
entering.texi.fr.po	       1079	           1025
files.texi.fr.po   	      13614	          11790
fixit.texi.fr.po   	       2666	           1802
frames.texi.fr.po  	       7386	           6537
help.texi.fr.po    	       3728	           3275
indent.texi.fr.po  	       1622	           1550
killing.texi.fr.po 	       6141	           4617
m-x.texi.fr.po     	        480	            416
mark.texi.fr.po    	       3275	           2980
mini.texi.fr.po    	       5124	           4896
mule.texi.fr.po    	      11229	           9772
regs.texi.fr.po    	       2204	           1257
screen.texi.fr.po  	       2622	           2513
search.texi.fr.po  	       9815	           7981
windows.texi.fr.po 	       2978	           2530
Et les chiffres pour les fichiers qui n'existaient pas dans la première traduction:
Project Statistics
                 	Segments	 Words	#Files
Total:           	   11250	206767	    36
Remaining:       	   10811	204471	    35
Unique:          	   10942	205105	    35
Unique Remaining:	   10645	203983	    35
Individual File Statistics:
File Name              	Total Words	Remaining Words
abbrevs.texi.fr.po     	       2998	           2633
ack.texi.fr.po         	       7483	           7291
anti.texi.fr.po        	        766	            732
arevert-xtra.texi.fr.po	       1341	           1307
building.texi.fr.po    	       9621	           9572
cal-xtra.texi.fr.po    	       5383	           5382
calendar.texi.fr.po    	       9146	           9121
cmdargs.texi.fr.po     	       6640	           6603
custom.texi.fr.po      	      15670	          15611
dired-xtra.texi.fr.po  	        330	            296
dired.texi.fr.po       	       8527	           8457
doclicense.texi.fr.po  	       3713	           3679
emacs-xtra.texi.fr.po  	        413	            370
emacsver.texi.fr.po    	         34	              0
emerge-xtra.texi.fr.po 	       2175	           2129
fortran-xtra.texi.fr.po	       3276	           3238
glossary.texi.fr.po    	       9027	           8926
gnu.texi.fr.po         	       4528	           4493
gpl.texi.fr.po         	       5669	           5572
kmacro.texi.fr.po      	       3859	           3824
macos.texi.fr.po       	       1461	           1427
maintaining.texi.fr.po 	      15045	          14931
misc.texi.fr.po        	      15623	          15550
modes.texi.fr.po       	       2861	           2788
msdog-xtra.texi.fr.po  	       3964	           3930
msdog.texi.fr.po       	       7100	           7064
package.texi.fr.po     	       1939	           1898
picture-xtra.texi.fr.po	       1689	           1655
programs.texi.fr.po    	      10617	          10601
rmail.texi.fr.po       	      10032	           9969
sending.texi.fr.po     	       3952	           3910
text.texi.fr.po        	      16060	          15989
trouble.texi.fr.po     	       8822	           8749
vc-xtra.texi.fr.po     	         99	             65
vc1-xtra.texi.fr.po    	       2668	           2511
xresources.texi.fr.po  	       4236	           4198
Donc au total 310 000 mots approximativement pour la totalité du manuel, 24 000 déjà traduits, soit par moi, soit dans l'ancienne version, sachant que les anciennes traductions ont été insérées automatiquement mais qu'il faut quand même les relire en totalité et adapter la terminologie.
Dans un premier temps, je vais travailler "offline" donc sans créer de projet en équipe pour OmegaT. Si certains sont intéressés pour m'aider je mettrai tout ça en ligne. Pour le moment j'ai besoin de relecteurs sur les POs que j'ai pour les trois premiers fichiers, et d'une saine discussion au sujet des choix que j'ai faits.
Au cas où certains d'entre vous s'ennuieraient cet été, voilà les 3 premiers chapitres.
Amicalement,
Jean-Christophe Helary 
ps : quand le manuel sera bouclé, je passerai à l'introduction à Emacs Lisp, de Chassel, puis seulement à la référence Emacs Lisp, qui a été le sujet d'un travail collaboratif avec des étudiants de l'INSA.