• Extraire les sous-titres d'un enregistrement TV

     

    Je vais vous exposer ma méthode pour extraire les sous-titres d'un enregistrement sur la TNT, en l'occurence un enregistrement d'une chaîne en HD, c'est-à-dire en MPEG-4. Il faut savoir qu'à partir d'avril 2016 tous les programmes sur la TNT seront diffusés à cette norme, alors autant laisser tomber le MPEG-2 tout de suite.

    Cela suppose que vous ayez pu récupérer le film enregistré sur le disque dur de votre ordinateur, ce qui n'est pas évident si vous enregistrez la TV via l'équipement fourni par votre fournisseur d'accès, car la plupart des opérateurs font en sorte que ce ne soit pas possible. Si par contre vous enregistrez la TNT via un décodeur TNT tout bête, il y a des chances pour que vous puissiez récupérer vos enregistrements sur votre ordinateur.

     

    Voici comment procéder en 2 à 5 étapes (selon la méthode utilisée) :

    1) Récupérez votre enregistrement grâce au logiciel RecTVEdit (gratuit). Si votre tuner se trouve dans la liste des matériels pris en charge, il y a toutes les chances pour que ça marche. RecTVEdit va transformer l'enregistrement en fichier .TS standard. Par exemple, le décodeur CGV Etimo 2T génère les enregistrements sous formes de dossiers contenant plusieurs fichiers .TS, RecTVEdit va réunir ces fichiers en un seul, condition indispensable pour la suite des opérations.

     

    2) Éditez le fichier .TS produit à l'étape précédente avec le logiciel TS-Doctor, afin d'une part de réparer les éventuelles erreurs (ce qui arrive fréquemment, et TS-Doctor est un excellent médecin en l'occurence), et d'autre part d'enlever les parties excédentaires, avant et après le film, et éventuellement au milieu s'il y a des coupures publicitaires.

    Si vous utilisez la nouvelle version de TS-Doctor (la version 2), il y a une fonction qui permet de détecter les coupures publicitaires et de les couper automatiquement, il y a aussi la possibilité d'extraire les sous-titres aussi bien au format télétexte qu'au format DVB sous forme de fichier .srt. Pour cela il faut cocher cette fonction dans les options de TS-Doctor. Dans ce cas le tutoriel s'arrête là en ce qui vous concerne, sauf si vous désirez conserver les durées exactes d'affichage des sous-titres par rapport à l'original, auquel cas le fichier .srt généré pas TS-Doctor ne vous servira à rien et vous devrez effectuer toutes les étapes suivantes.

     

    3) Cette étape est facultative et réservée aux puristes. Elle permet d'extraire les sous-titres en conservant les durées exactes d'affichage de chaque sous-titre, telles qu'elles existent dans l'enregistrement original. Si vous sautez cette étape ces durées seront perdues, ce qui n'affectera pas la synchronisation des sous-titres par rapport à l'image et au son, seulement leur durée d'affichage.

    Extraire les sous-titres du fichier TS avec le logiciel Project-X (gratuit). Ce logiciel écrit en java est un peu complexe à l'utilisation, mais plein de ressources. Pour pouvoir extraire les sous-titres sur la TNT française, il est indispensable de procéder aux réglages suivants dans les préférences :

    - Onglet options : cocher la case "enable HD subtitle"

    Extraire les sous-titres d'un enregistrement TV

    - Onglet sous-titres :

    Extraire les sous-titres d'un enregistrement TV

     

    Après avoir ouvert le fichier TS produit par TS-Doctor, faites un clic droit sur le nom du fichier dans la partie basse de la fenêtre principale de Project-X, et sélectionnez File Properties.., cela vous ouvre une nouvelle fenêtre semblable à celle-ci :

    Extraire les sous-titres d'un enregistrement TV

    Sur cet exemple on voit qu'il y a deux PID correspondant aux sous-titres français, 0x2E4 et 0x2E6. Prendre le premier des deux (le second correspond aux sous-titres forçés). Cliquer sur l'onglet Filter Control au bas de la fenêtre principale de Project-X, puis saisissez 0x2E4 dans le champ où se trouve le curseur, faites entrée et vous verrez la valeur s'ajouter dans la liste des PID à sélectionner. Cela permet de ne générer que le sous-titre à extraire, cela va plus vite que de tout extraire et ça évite de générer un tas de fichiers inutiles.

    Cliquez ensuite sur le bouton ouvrir >>> dans la partie Traitement, à gauche de la fenêtre. Cochez l'option demux (et elle seulement), puis cliquez sur le bouton Play, celui en forme de triangle, de couleur verte. Vous obtenez à la fin de l'extraction un fichier .sup et un fichier .IFO.

     

    4) Le fichier TS généré par TS-Doctor ou le fichier .sup produit par Project-X contiennent les sous-titres, mais sous forme d'images, pas de texte. Il faut maintenant convertir ces images en texte avec un OCR. Avant le passage à la HD en avril 2016, le logiciel DVDSubEdit faisait très bien l'affaire. Depuis ça ne marche plus, je propose donc d'utiliser l'OCR de Subtitle Edit, plus lent mais qui sait traiter les sous-titres en HD. Ouvrez le fichier .sup issu de l'étape 3, ou le fichier TS issu de l'étape 2 si vous avez sauté l'étape 3. Cela affiche une fenêtre comme celle-ci :

    Extraire les sous-titres d'un enregistrement TV

     

    Si vous avez sauté l'étape 3, les informations de palette en haut à droite sont absentes. Sinon décochez toutes les options de palette en haut à droite, sauf couleurs personnalisées. Selon l'émission enregistrée, il faudra peut-être jouer sur ces options si l'OCR ne donne pas de bons résultats. Dans tous les cas, décochez les cases "Italique" et "Symbole musical" (à gauche), et "Demander pour mots inconnus" (à droite), puis lancez l'OCR.

     

    Extraire les sous-titres d'un enregistrement TV

    À la fin du traitement passez en revue la liste des mots inconnus (en bas à droite), et corrigez les erreurs éventuelles. Jetez aussi un oeil sur les lignes en jaune, qui peuvent contenir des erreurs de traduction. L'OCR s'emmêle parfois les pinceaux, mais globalement le résultat est satisfaisant. Dans l'exemple ci-dessus la ligne 1078 a mal été traduite par l'OCR, vous pouvez alors corriger dans la partie blanche en bas à gauche de la fenêtre.

    Une fois que vous avez passé en revue et corrigé toutes les erreurs, cliquez sur OK en bas à droite. Si vous avez sauté l'étape 3, allez dans le menu Outils et faites "Corriger les erreurs fréquentes". Cela permettra d'éviter les chevauchements de sous-titres, car Subtitle Edit affecte arbitrairement une durée d'affichage de 3,5 secondes à chaque sous-titre, quand on extrait les sous-titres du fichier TS directement. 

    Sauvegardez vos modifications dans Subtitle Edit, vous obtenez alors un fichier sous-titre de type texte, avec l'extension .srt. Pour plus de sûreté vous pouvez re-vérifier l'orthographe de ce fichier avec un éditeur basique (pas Word). 

    Si vous avez effectué l'extraction des sous-titres avec Project-X (étape 3), il reste encore une étape, sinon le tutoriel s'arrête là pour vous.

     

    5) Le fichier .srt généré à l'étape 4 à partir du fichier .sup produit par Project-X n'est malheureusement pas correctement synchronisé avec l'image. Vous devez ouvrir le fichier TS produit par TS-Doctor directement dans Subtitle Edit, laisser Subtitle Edit analyser le fichier TS (cela ne prend pas beaucoup de temps), et quand la fenêtre suivante s'affiche, ne lancez pas l'OCR, notez simplement le temps initial du premier sous-titre. Celui-ci est exprimé en heure/minutes/secondes/millièmes de secondes (hh:mn:ss,mmm). Annulez l'opération, ouvrez le fichier .srt généré à l'étape 4, allez dans le menu Synchronisation de Subtitle Edit et cliquez sur "Définir le décalage (plus tôt/tard...)". Faites la différence entre le temps initial du premier sous-titre de votre fichier .srt et le temps que vous avez noté, et appliquez cette différence sur toutes les lignes pour que votre fichier .srt ait les mêmes valeurs de temps initial que le fichier TS. Sauvegardez.

    Et voilà, vous avez un fichier sous-titres au format texte. C'est un peu compliqué comme méthode, j'en conviens, mais je n'ai malheureusement pas trouvé plus simple. Si comme moi vous préférez les films en VO, vous trouverez comme moi que ça en vaut la peine. 


    Tags Tags : , , , ,
  • Commentaires

    1
    ruppert
    Lundi 18 Avril 2016 à 16:56

    Salut désolé de vous dire que votre méthode ne fonctionne pas avec mes enregistrement fait sur un Strong 8115.

    RecTVEdit ne reconnait pas les fichiers.

    ProjectX ne fonction que sur des fichiers en basse résolution (SD) donc pour la HD c'est mort

      • Lundi 18 Avril 2016 à 19:02

        Deux choses :

        - Pour Rectvedit, le modèle Strong 8115 n'est pas géré, malheureusement pour vous. Je suppose que vous avez quand même essayé en choisissant les deux modèles Strong présents dans la liste des modèles d'enregistreur. Essayez à tout hasard les modèles CGV également, il paraît que le Strong 8115 a la même puce que le CGV Etimo 1T (malheureusement le 1T n'est pas non plus dans la liste, donc peu d'espoir de ce côté-là).

        - Pour ProjectX, il ne sert que pour extraire les sous-titres, pas la vidéo. Et il fait ça très bien.

    2
    anonyme
    Mardi 11 Juin 2019 à 14:26

    Bonjour

    si, le strong 8115 est géré; il faut choisir Akira DHB-B36 et modifier

    le nom du dossier : sur les strong le nom du dossier se termine

    par .rec; il faut renommer et mettre .pvr

    quand on sait, c'est simple

    cordialement

    3
    anonyme
    Mardi 30 Juillet 2019 à 11:29

    Bonjour

    désolé de l'erreur que j'ai faite au dessus; je me suis mélangé les pinceaux entre mes récepteurs tnt; donc, le strong 8115 est bien géré en choisissant "CGV etimo 2T".

    Bien cordialeemnt

    4
    Mardi 30 Juillet 2019 à 11:47

    @anonyme

    Bonne nouvelle wink2

    5
    Hier à 00:37
    Hey there, I think your blog might be having browser compatibility issues. When I loook at your blog in Firefox, iit loooks fine but when opening in Internet Explorer, it hass some overlapping. I just wanted too give you a quick heads up! Other then that, superb blog!
    Suivre le flux RSS des commentaires


    Ajouter un commentaire

    Nom / Pseudo :

    E-mail (facultatif) :

    Site Web (facultatif) :

    Commentaire :