Métriques de qualité – Mesurer la performance vidéo avec l'IA

Les métriques de score de qualité utilisent l'IA pour évaluer la clarté, l'engagement et la livraison des vidéos, aidant ainsi les créateurs à optimiser le contenu en fonction des informations de performance en temps réel.

Quels sont les indicateurs de qualité (pour les vidéos générées par IA) ?
Les indicateurs de qualité sont des mesures quantitatives et subjectives utilisées pour évaluer la qualité perceptuelle, la fidélité et le réalisme du contenu vidéo généré ou encodé par IA. Ils évaluent dans quelle mesure une vidéo générée s'aligne sur les attentes visuelles humaines et/ou les références de vérité de base.

Quels sont les indicateurs de qualité (pour les vidéos générées par IA) ?
Les indicateurs de qualité sont des mesures quantitatives et subjectives utilisées pour évaluer la qualité perceptuelle, la fidélité et le réalisme du contenu vidéo généré ou encodé par IA. Ils évaluent dans quelle mesure une vidéo générée s'aligne sur les attentes visuelles humaines et/ou les références de vérité de base.

Quels sont les indicateurs de qualité (pour les vidéos générées par IA) ?
Les indicateurs de qualité sont des mesures quantitatives et subjectives utilisées pour évaluer la qualité perceptuelle, la fidélité et le réalisme du contenu vidéo généré ou encodé par IA. Ils évaluent dans quelle mesure une vidéo générée s'aligne sur les attentes visuelles humaines et/ou les références de vérité de base.

Comment fonctionnent ces métriques ?

Les métriques de qualité vidéo tombent dans deux grandes catégories :

  • Les métriques de référence complète/objectives comparent le contenu généré avec une référence connue, en utilisant des différences spatiales ou temporelles. Des exemples incluent :

    • PSNR (Rapport Pic Signal-Bruit) : Mesure la fidélité au niveau des pixels ; des valeurs élevées indiquent moins de distorsion mais reflètent mal la perception humaine.

    • SSIM (Indice de Similarité Structurelle) : Modélise la similarité structurelle et perceptuelle, surpassant le PSNR sur la plupart des distorsions visuelles.

    • VMAF (Fusion d'Évaluation Multiméthode Vidéo) : Combine plusieurs caractéristiques basées sur l'image avec l'apprentissage automatique pour correspondre aux évaluations perceptuelles humaines, donnant un score de 0 à 100.

    • FVD (Distance Vidéo Fréchet) : Mesure le dérive statistique dans les distributions de caractéristiques spatiotemporales entre les ensembles vidéo générés et de référence largement utilisés dans l'évaluation vidéo générative.

  • Les métriques sans référence/unaires évaluent les vidéos sans vidéo de référence. Celles-ci s'appuient sur des modèles appris entraînés sur des ensembles de données annotées par des humains :

    • VideoScore : Entraîné sur un ensemble de données avec des retours d'information humains détaillés ; atteint environ 77 % de corrélation avec le jugement humain, surpassant le FVD et l'IS.

    • UGVQ : Conçu pour le contenu généré par l'IA ; combine des caractéristiques d'alignement spatial, temporel et texte-vidéo ; établit de nouvelles références sur l'ensemble de données LGVQ.

    • VAMP : Évalue l'apparence visuelle et la plausibilité du mouvement en utilisant des notations basées sur la physique et visuelles ; améliore les évaluations du réalisme temporel au-delà du FVD et de l'IS.

Comment fonctionnent ces métriques ?

Les métriques de qualité vidéo tombent dans deux grandes catégories :

  • Les métriques de référence complète/objectives comparent le contenu généré avec une référence connue, en utilisant des différences spatiales ou temporelles. Des exemples incluent :

    • PSNR (Rapport Pic Signal-Bruit) : Mesure la fidélité au niveau des pixels ; des valeurs élevées indiquent moins de distorsion mais reflètent mal la perception humaine.

    • SSIM (Indice de Similarité Structurelle) : Modélise la similarité structurelle et perceptuelle, surpassant le PSNR sur la plupart des distorsions visuelles.

    • VMAF (Fusion d'Évaluation Multiméthode Vidéo) : Combine plusieurs caractéristiques basées sur l'image avec l'apprentissage automatique pour correspondre aux évaluations perceptuelles humaines, donnant un score de 0 à 100.

    • FVD (Distance Vidéo Fréchet) : Mesure le dérive statistique dans les distributions de caractéristiques spatiotemporales entre les ensembles vidéo générés et de référence largement utilisés dans l'évaluation vidéo générative.

  • Les métriques sans référence/unaires évaluent les vidéos sans vidéo de référence. Celles-ci s'appuient sur des modèles appris entraînés sur des ensembles de données annotées par des humains :

    • VideoScore : Entraîné sur un ensemble de données avec des retours d'information humains détaillés ; atteint environ 77 % de corrélation avec le jugement humain, surpassant le FVD et l'IS.

    • UGVQ : Conçu pour le contenu généré par l'IA ; combine des caractéristiques d'alignement spatial, temporel et texte-vidéo ; établit de nouvelles références sur l'ensemble de données LGVQ.

    • VAMP : Évalue l'apparence visuelle et la plausibilité du mouvement en utilisant des notations basées sur la physique et visuelles ; améliore les évaluations du réalisme temporel au-delà du FVD et de l'IS.

Comment fonctionnent ces métriques ?

Les métriques de qualité vidéo tombent dans deux grandes catégories :

  • Les métriques de référence complète/objectives comparent le contenu généré avec une référence connue, en utilisant des différences spatiales ou temporelles. Des exemples incluent :

    • PSNR (Rapport Pic Signal-Bruit) : Mesure la fidélité au niveau des pixels ; des valeurs élevées indiquent moins de distorsion mais reflètent mal la perception humaine.

    • SSIM (Indice de Similarité Structurelle) : Modélise la similarité structurelle et perceptuelle, surpassant le PSNR sur la plupart des distorsions visuelles.

    • VMAF (Fusion d'Évaluation Multiméthode Vidéo) : Combine plusieurs caractéristiques basées sur l'image avec l'apprentissage automatique pour correspondre aux évaluations perceptuelles humaines, donnant un score de 0 à 100.

    • FVD (Distance Vidéo Fréchet) : Mesure le dérive statistique dans les distributions de caractéristiques spatiotemporales entre les ensembles vidéo générés et de référence largement utilisés dans l'évaluation vidéo générative.

  • Les métriques sans référence/unaires évaluent les vidéos sans vidéo de référence. Celles-ci s'appuient sur des modèles appris entraînés sur des ensembles de données annotées par des humains :

    • VideoScore : Entraîné sur un ensemble de données avec des retours d'information humains détaillés ; atteint environ 77 % de corrélation avec le jugement humain, surpassant le FVD et l'IS.

    • UGVQ : Conçu pour le contenu généré par l'IA ; combine des caractéristiques d'alignement spatial, temporel et texte-vidéo ; établit de nouvelles références sur l'ensemble de données LGVQ.

    • VAMP : Évalue l'apparence visuelle et la plausibilité du mouvement en utilisant des notations basées sur la physique et visuelles ; améliore les évaluations du réalisme temporel au-delà du FVD et de l'IS.

Pourquoi plusieurs métriques sont-elles nécessaires ?

  • Le PSNR et le SSIM échouent souvent à capturer la cohérence temporelle ou la cohérence narrative, en particulier dans les scénarios de vidéo générative. Le VMAF peut sous-performer sur les codecs neuronaux à moins d'être réentraîné.

  • Les codecs appris et la vidéo générée par l'IA incluent des artefacts que les métriques traditionnelles n'étaient pas conçues pour détecter ; des études montrent un désalignement significatif avec les scores humains à moins d'utiliser des métriques spécialisées comme MLCVQA, VideoScore ou UGVQ.

Pourquoi plusieurs métriques sont-elles nécessaires ?

  • Le PSNR et le SSIM échouent souvent à capturer la cohérence temporelle ou la cohérence narrative, en particulier dans les scénarios de vidéo générative. Le VMAF peut sous-performer sur les codecs neuronaux à moins d'être réentraîné.

  • Les codecs appris et la vidéo générée par l'IA incluent des artefacts que les métriques traditionnelles n'étaient pas conçues pour détecter ; des études montrent un désalignement significatif avec les scores humains à moins d'utiliser des métriques spécialisées comme MLCVQA, VideoScore ou UGVQ.

Pourquoi plusieurs métriques sont-elles nécessaires ?

  • Le PSNR et le SSIM échouent souvent à capturer la cohérence temporelle ou la cohérence narrative, en particulier dans les scénarios de vidéo générative. Le VMAF peut sous-performer sur les codecs neuronaux à moins d'être réentraîné.

  • Les codecs appris et la vidéo générée par l'IA incluent des artefacts que les métriques traditionnelles n'étaient pas conçues pour détecter ; des études montrent un désalignement significatif avec les scores humains à moins d'utiliser des métriques spécialisées comme MLCVQA, VideoScore ou UGVQ.

Start creating videos with our AI Video + Doc generator for free

Start creating videos with our AI Video + Doc generator for free

Start creating videos with our AI Video + Doc generator for free

Start creating videos with our AI Video + Doc generator

Instant AI Product Videos & Docs from Rough Screen Recordings