Mesure sans référence de la qualité des vidéos haute définition diffusées avec des pertes de transmission
Langue
en
Thèses de doctorat
Date de soutenance
2012-09-24Spécialité
Informatique
École doctorale
École doctorale de mathématiques et informatique (Talence, Gironde)Résumé
Les objectifs de ce travail de thèse ont été: d’une part de détecter automatique-ment les images gelées dans des vidéos télédiffusées; et d’autre part de mesurer sans référencela qualité des vidéos télédiffusées (IP et ...Lire la suite >
Les objectifs de ce travail de thèse ont été: d’une part de détecter automatique-ment les images gelées dans des vidéos télédiffusées; et d’autre part de mesurer sans référencela qualité des vidéos télédiffusées (IP et DVB-T). Ces travaux ont été effectués dans le cadred’un projet de recherche mené conjointement par le LaBRI et la société Audemat WorldCastSystems.Pour la détection d’images gelées, trois méthodes ont été proposées: MV (basée vecteurde mouvement), DC (basée sur les coefficients DC de la DCT) et SURF (basée sur les pointscaractéristiques SURF). Les deux premières méthodes ne nécessitent qu’un décodage partieldu flux vidéo.Le second objectif était de mesurer sans référence la qualité des vidéos télédiffusées (IP etDVB-T). Une métrique a été développée pour mesurer la qualité perçue lorsque le flux vidéoa été altéré par des pertes de transmission. Cette métrique "Weighted Macro-Block ErrorRate" (WMBER) est fondée sur la mesure de la saillance visuelle et la détection des macro-blocs endommagés. Le rôle de la saillance visuelle est de pondérer l’importance des erreursdétectées. Certaines améliorations ont été apportées à la construction des cartes de saillancespatio-temporelle. En particulier, la fusion des cartes de saillance spatiale et temporelle aété améliorée par rapport à l’état de l’art. Par ailleurs, plusieurs études ont montré que lasémantique d’une scène visuelle avait une influence sur le comportement du système visuelhumain. Il apparaît que ce sont surtout les visages humains qui attirent le regard. C’est laraison pour laquelle nous avons ajouté une dimension sémantique aux cartes de saillancespatio-temporelle. Cette dimension sémantique est essentiellement basée sur le détecteurde visage de Viola Jones. Pour prédire la qualité perçue par les utilisateurs, nous avonsutilisé une méthode par apprentissage supervisé. Cette méthode offre ainsi la possibilité deprédire la métrique subjective "Mean Opinion Score" (MOS) à partir de mesures objectivestelles que le WMBER, PSNR ou SSIM. Une expérience psycho-visuelle a été menée avec 50sujets pour évaluer ces travaux. Cette base de données vidéo Haute-Définition est en coursde transfert à l’action COST Qualinet. Ces travaux ont également été évalués sur une autrebase de données vidéo (en définition standard) provenant de l’IRCCyN< Réduire
Résumé en anglais
The goal of this Ph.D thesis is to design a no-reference video quality assessment method for lossy net-works. This Ph.D thesis is conducted in collaboration with the Audemat Worldcast Systemscompany.Our first no-reference ...Lire la suite >
The goal of this Ph.D thesis is to design a no-reference video quality assessment method for lossy net-works. This Ph.D thesis is conducted in collaboration with the Audemat Worldcast Systemscompany.Our first no-reference video quality assessment indicator is the frozen frame detection.Frozen frame detection was a research topic which was well studied in the past decades.However, the challenge is to embed a frozen frame detection method in the GoldenEagleAudemat equipment. This equipment has low computation resources that not allow real-time HD video decoding. Two methods are proposed: one based on the compressed videostream motion vectors (MV-method) and another one based on the DC coefficients from thedct transform (DC-method). Both methods only require the partial decoding of the com-pressed video stream which allows for real-time analysis on the GoldenEagle equipment.The evaluation shows that results are better than the frame difference base-line method.Nevertheless, the MV and the DC methods are only suitable with for MPEG2 and H.264video streams. So a third method based on SURF points is proposed.As a second step on the way to a no-reference video quality assessment metric, we areinterested in the visual perception of transmission impairments. We propose a full-referencemetric based on saliency maps. This metric, Weighted Mean Squared Error (WMSE), is theMSE metric weighted by the saliency map. The saliency map role is to distinguish betweennoticeable and unnoticeable transmission impairments. Therefore this spatio-temporal saliencymaps is computed on the impaired frame. Thus the pixel difference in the MSE computationis emphasized or diminished with regard to the pixel saliency. According to the state of theart, several improvements are brought to the saliency map computation process. Especially,new spatio-temporal saliency map fusion strategies are designed.After our successful attempt to assess the video quality with saliency maps, we develop ano-reference quality metric. This metric, Weighted Macro-Block Error Rate (WMBER), relies on the saliency map and the macro-block error detection. The macro-block error detectionprovides the impaired macro-blocks location in the frame. However, the impaired macro-blocks are concealed with more or less success during the decoding process. So the saliencymap provides the user perceived impairment strength for each macro-block.Several psycho-visual studies have shown that semantics play an important role in visualscene perception. These studies conclude that faces and text are the most attractive. Toimprove the spatio-temporal saliency model a semantic dimension is added. This semanticsaliency is based on the Viola & Jones face detector.To predict the Mean Opinion Score (MOS) from objective metric values like WMBER,WMSE, PSNR or SSIM, we propose to use a supervised learning approach. This approach iscalled Similarity Weighted Average (SWA). Several improvements are brought to the originalSWA.For the metrics evaluation a psycho-visual experiment with 50 subjects has been carriedout. To measure the saliency map models accuracy, a psycho-visual experiment with aneye-tracker has also been carried out. These two experiments habe been conducted in col-laboration with the Ben Gurion University, Israel. WMBER and WMSE performances arecompared with reference metrics like SSIM and PSNR. The proposed metrics are also testedon a database provided by IRCCyN research laboratory.< Réduire
Mots clés
Qualité vidéo
Sans référence
H.264
Haute-Définition
Carte de saillance
Image gelée
Apprentissage supervisé
Mots clés en anglais
Video quality assessment
No reference
H.264
High Definition
Saliency maps
Frozen frames
Supervised learning
Origine
Importé de STAR