ST-2110 : Codecs

Dans les volets précédents, nous avons retracé l’histoire du ST-2110 et détaillé ses avantages intrinsèques : indépendance des flux, souplesse de routage, évolutivité, …​

Ce troisième volet explore en détail les formats supportés par ST-2110 : vidéo non-compressée et compressée, audio PCM et AES3, métadonnées et sous-titres. Nous analyserons l’impact économique de ces choix techniques sur les infrastructures et examinerons s’il est possible de réconcilier qualité broadcast et viabilité économique.

1 - Historique

Les technologies qui ont précédé le standard ST-2110.

2 - Vue d’ensemble

Les atouts fondamentaux et limites du ST-2110.

3 - Codecs et infrastructure

Impact sur les réseaux et le choix des formats.

4 - Transport et signalisation

Protocoles de transmission, limitations et pistes d’amélioration.

5 - NMOS

La brique indispensable pour une production ST-2110.

6 - Conclusion

Faut-il investir dans les sociétés de recyclage de câbles coaxiaux ?

ST-2110 : Inventaire

Afin de poser un cadre clair à notre analyse, nous allons d’abord parcourir les différentes parties du standard. Nous pourrons ensuite confronter ce périmètre fonctionnel au domaine d’exploitation visé.

Vidéo

ST 2110-20 : Transport de vidéo non-compressée

Une passerelle SDI - ST 2110 sans valeur ajoutée.

Comme son intitulé le laisse entendre, ce document définit comment transporter et signaliser de la vidéo non compressée. Cette partie du standard est intéressante dans les cas où :

  • la qualité doit être maximale, et sans détérioration tout au long de la chaîne de traitement,

  • la latence doit être minimale,

  • la ressource de calcul est limitée,

  • la bande passante disponible est importante, et à faible coût.

ST 2110-22: Constant Bitrate Compressed Video

Du transport de vidéo compressé…​ contraignant, et sans garantie d’interopérabilité.

Ce document définit comment transporter et signaliser de la vidéo compressée dans un écosystème ST 2110. Il y a deux choses majeures à noter :

  • Le standard impose la transmission de flux à bitrate constant. C’est un point surprenant, à l’encontre des avantages apportés par l’IP par rapport au SDI : les actifs IP sont parfaitement en mesure de router des flux avec des bitrates qui varient. Si l’on comprend bien que ce choix permet de simplifier le travail des actifs réseaux, il empêche l’optimisation de la ressource réseau apportée par l’efficacité d’un transport VBR, et notamment l’allocation dynamique avec des mécanismes de type statmux [1]

  • D’autre part, en faisant le choix de n’imposer aucun codec, cette partie du standard ne propose aucune garantie d’interopérabilité entre les équipements, ce qui est pourtant un point crucial. Deux équipements labellisés compatibles ST 2110-22 peuvent respecter en tout point le standard, et totalement incompatibles si leurs fabricants ont choisi des codecs différents.

Audio

Historiquement, le SDI permettait d’embarquer à la fois des flux PCM et des flux AES3. Sans surprise, la partie audio du ST 2110 reprend cette logique et décrit le transport de ces deux formats.

ST 2110-30: PCM Digital Audio

Un profil AES 67 garantissant l’interopérabilité avec l’écosystème audio IP.

ST 2110-30 se présente comme un profil restreint d’AES67, pensé pour le broadcast. Il impose le support de la fréquence d’échantillonage de 48 KHz et supprime les mécanismes orientés VoIP. Cela apporte l’immense avantage de garantir une compatibilité ascendante avec les infrastructures AES 67 ou compatibles.

Le format choisi est un flux PCM linéaire à 16 ou 24 bits.

ST 2110-31: AES3 Transparent Transport

Une passerelle SDI - ST 2110 à l’encontre de la philosophie standard

ST 2110-31 permet de transporter dans une infrastructure ST 2110 des flux AES3. Or AES3 est un protocole d’encapsulation qui peut contenir aussi bien :

  • du PCM linéaire,

  • des formats audio compressés comme Dolby E, Dolby ED2, AC-3/E-AC-3, MP1L2 ou AAC,

  • mais aussi, dans certains cas, des données qui ne sont même pas de l’audio (par exemple des métadonnées).

Nous sommes donc face à une encapsulation IP d’un flux qui encapsule lui-même une essence, à rebours de l’objectif initial du ST 2110 qui visait à clarifier le transport des essences. La comparaison avec la vidéo est d’ailleurs flagrante : là où ST 2110-22 spécifie explicitement le codec transportée, ST 2110-31 se limite à indiquer « AES3 », charge au récepteur de déterminer ce que le flux contient réellement.

D’un point de vue normatif, un premier problème apparaît : la même essence peut désormais être transportée de plusieurs façons différentes. Ainsi, un flux PCM peut transiter soit en ST 2110-30, soit en ST 2110-31. De même, certains flux de métadonnées peuvent être diffusés indifféremment en ST 2110-31 ou en ST 2110-4X.

Enfin, cette approche soulève une fois de plus des problèmes d’interopérabilité : aucune restriction n’est définie concernant les codecs ou un profil minimal de compatibilité, ouvrant la voie à des implémentations incompatibles entre elles.

Données auxiliaires

ST 2110-40: SMPTE ST 291-1 Ancillary Data

Une passerelle SDI - ST 2110, sans valeur ajoutée, ni évolution possible.

Cette norme est une passerelle qui permet de transporter les données auxiliaires contenues dans les intervals de blanking (encore !) d’un signal SDI. Elle n’existe que comme mécanisme de compatibilité ascendante et devrait être progressivement remplacée par des alternatives mieux adaptées au monde IP.

ST 2110-41: Fast Metadata Framework

Un moyen universel de transmettre des métadonnées.

ST 2110-41 a pour ambition d’offrir un mécanisme générique de transport des métadonnées. Le principe est séduisant : un format agnostique, capable d’encapsuler aussi bien du JSON ou du XML standardisés que des données propriétaires.

ST 2110-43: Timed Text Markup Language for Captions and Subtitles

Un mode de transport qui redonne aux sous-titres leur statut d’essence à part entière.

Cette partie du standard définit le transport des sous-titres et captions en utilisant TTML (Timed Text Markup Language), un format largement répandu et adapté au monde IP.

L’intérêt est double :

  • Les sous-titres ne sont plus relégués à de simples données auxiliaires cachées dans les intervalles de blanking SDI, mais considérés comme une essence à part entière au même titre que la vidéo ou l’audio.

  • L’usage de TTML ouvre la voie à une meilleure interopérabilité et à des traitements bien plus souples que les anciens sous-titres encapsulés dans le VBI

De l’inventaire à l’usage

Contexte et cadre d’utilisation

Avant d’avancer dans la réflexion, il est nécessaire de préciser à quel moment il est pertinent d’envisager l’adoption des flux ST-2110. Or, le SMPTE ne définit nulle part de cas d’usage : la norme décrit comment transporter des flux médias sur IP — essentiellement ceux qui étaient autrefois véhiculés en SDI. Il est d’ailleurs assez flagrant dans l’inventaire : une grande partie des documents peine à se défaire des réflexes hérités du SDI.

Si l’on considère que l’objet du standard est de remplacer SDI, alors il faut considérer que les choix techniques sont capables d’assurer toutes les étapes séparant la captation des images jusqu’à la régie finale, avant encodage. Toute diffusion n’étant pas forcément en direct, il faudra aussi penser aux problématiques d’enregistrement et de montage. Enfin, dans la mesure où l’un des avantages avancés dans le chapitre précédent, il est nécessaire que les choix techniques soient compatibles avec les infrastructures cloud.

Contraintes d’infrastructure

En SDI, le coût d’une infrastructure restait indépendant du débit transporté : une fois le câble et les équipements en place, diffuser un flux 4K coûte le même prix qu’un flux SD. En IP, les coûts augmentent proportionnellement à la bande passante consommée.

Pour contenir ces coûts, il devient donc essentiel d’optimiser l’utilisation de la bande passante en fonction des fonctionnalités réellement attendues. Ce principe s’applique déjà aux architectures on-premise, où le débit conditionne directement le dimensionnement du réseau. Mais il est encore plus crucial dans le cloud, où chaque mégabit est facturé.

Pour des raisons similaires, il est important de garder un œil sur la puissance de calcul nécessaire au traitement.

Attentes sur les essences

Une fois les contraintes sur les infrastructures énoncées, il est nécessaire de définir les attentes sur la diffusion des essences, notamment en termes de qualité et de latence.

En SDI, la transmission en bande de base garantit une qualité maximale et une latence quasi nulle : il est donc tentant d’attendre la même chose en IP.

Il faut cependant ne pas oublier que si cette bande de base peut être conservée de bout en bout lors des réalisations en direct, elle ne l’est plus dès qu’un enregistrement entre dans la chaîne. En pratique, XDCAM reste le format majoritairement utilisé dans ce cadre-là, XAVC Intra étant prêt à prendre la relève - or ces deux formats impliquent par nature une détérioration visuelle du signal tout en restant cependant conformes aux attentes des diffuseurs.

En termes de latence, il paraît raisonnable d’accepter un ordre de grandeur de quelques images entre le début de la chaîne et la sortie de régie finale : les délais induits par les modes de diffusion étant supérieurs de plusieurs ordres de grandeurs, y compris en streaming.

Analyse par essence

Audio

ST 2110-30 et l’apport du S-ADM via ST 2110-41 couvrent parfaitement les besoins.

Pour l’audio, la situation est relativement simple. Les ressources nécessaires — tant en bande passante qu’en puissance de calcul — sont négligeables par rapport à la vidéo. Il n’y a donc aucune raison de se priver d’un transport PCM linéaire, tel que défini par ST 2110-30, qui garantit une interopérabilité directe avec AES67 déjà largement déployé.

Lorsque des métadonnées descriptives sont nécessaires, par exemple pour la production immersive, le flux peut être enrichi via S-ADM transporté en ST 2110-41. Cette combinaison (2110-30 + 2110-41) permet de conserver la clarté des essences sans insulter l’avenir.

Données auxiliaires

ST 2110-41 et ST 2110-43 remplissent le rôle attendu. SCTE 104 reste coincé dans son intervalle de blanking.

Pour les métadonnées comme pour les sous-titres, les briques sont présentes. ST 2110-41 offre un cadre générique suffisamment souple pour la plupart des besoins, tandis que ST 2110-43 redonne aux sous-titres leur statut d’essence à part entière. Malgré quelques choix techniques discutables, l’ensemble est exploitable et cohérent avec l’esprit IP.

Le SCTE-104, utilisé pour signaler les points d’insertion publicitaire, reste aujourd’hui prisonnier du ST 2110-40 où il transite comme simple donnée auxiliaire héritée du SDI. Cette approche assure la compatibilité, mais elle reste en décalage avec l’esprit IP, où ces métadonnées mériteraient un transport natif. ST 2110-41 offre un cadre idéal, encore faudrait-il qu’un mapping officiel soit défini. En l’absence de standard, certains acteurs ont déjà pris les devants : SiriusXM a ainsi enregistré un Data Item Type (DIT) pour transporter du SCTE-104 en JSON sur 2110-41.

Vidéo

L’analyse révèle un paradoxe : là où ST 2110-20 offre une compatibilité technique parfaite mais économiquement intenable, ST 2110-22 propose une solution économique viable mais compromet l’interopérabilité. VSF TR-08 propose un profil basé sur JPEG-XS permettant de réconcilier ces deux exigences.
Non compressée

Comme énoncé dans la section décrivant ST 2110-20, le transport de vidéo non compressé n’est envisageable que lorsque la bande passante est disponible à faible coût…​ Et pour le moment c’est loin d’être le cas. Schématiquement, sur un lien à 25 GBps, il n’est possible de transporter que 16 flux 1080p25 ou 4 flux 20160p25, et un unique flux 8K. Cela impose rapidement des cœurs de réseau à 100 ou 400 Gbps, et des coûts d’infrastructure qui ne sont pas justifiés par les avantages apportés par le standard. Le paradoxe est évident : ce mode n’a d’existence possible que dans un laboratoire ou dans un plateau isolé - échelle à laquelle, le SDI reste parfaitement suffisant, et bien meilleur marché.

Compressée

De son côté, ST 2110-22 apporte une réponse technique parfaitement valable, qui apporte une totale flexibilité sur la nature du codec transporté. Cette approche permet d’ailleurs d’adapter le format en fonction des besoins et des capacités à chaque étape de la chaîne : on peut ainsi imaginer une sortie de caméra en XAVC Intra, une sortie de mélangeur en JPEG XS lossless, puis un transport vers le cloud en HEVC à 25 Mb/s après insertion d’un watermark.

Malheureusement, cette liberté compromet l’interopérabilité. Heureusement, plusieurs initiatives externes offrent une voie de sortie à cette impasse d’interopérabilité, tout en permettant une réduction drastique des coûts d’infrastructure.

Le document VSF TR-08 constitue une réponse directe au problème : il définit un profil d’interopérabilité JPEG-XS spécifiquement conçu pour ST 2110-22, s’appuyant sur la RFC 9134 pour la couche transport. Au-delà des aspects protocolaires, TR-08 précise les paramètres critiques — plages de compression autorisées, paramètres d’encodage — qui permettent d’aligner les implémentations entre constructeurs. Cette approche pragmatique a d’ailleurs été validée par l’EBU, qui cite TR-08 dans son document de référence Tech 3371.

En pratique, officialiser TR-08 comme profil de référence JPEG-XS pour ST 2110-22 résoudrait immédiatement les problèmes d’interopérabilité identifiés, tout en apportant des bénéfices économiques substantiels :

  • Réduction drastique des coûts d’infrastructure : les ratios de compression JPEG-XS permettent de diviser la bande passante nécessaire d’un facteur 13.

  • Facilitation du déploiement cloud : la diminution de la consommation réseau rend économiquement envisageable l’utilisation d’infrastructures délocalisées

  • Préservation de la qualité : compression visuellement sans perte adaptée aux exigences broadcast

  • Latence minimale : moins d’une ligne de retard, compatible avec les contraintes temps réel

Cette approche concilie ainsi les exigences techniques, économiques et opérationnelles du broadcast IP moderne.

Table 1. Comparaison des débits 1080p25 (4:2:2 10 bits)
FormatDébitRatio

ST 2110-20

1.04 Gbps

1:1

JPEG-XS 1.5 bpp

78 Mbps

13.3:1

JPEG-XS 4 bpp

207 Mbps

5:1

 

Table 2. Comparaison des débits 2160p25 (4:2:2 10 bits)
FormatDébitRatio

ST 2110-20

4.15 Gbps

1:1

JPEG-XS 1.5 bpp

311 Mbps

13.3:1

JPEG-XS 4 bpp

829 Mbps

5:1

Nombre de flux vidéo sur une liaison 25Gbps.
Figure 1. Nombre de flux vidéo sur une liaison 25 Gbps.

2 - Vue d’ensemble

4 - Transport et signalisation

Bibliographie

[1] SMPTE ST 2110-20:2022. Professional Media Over Managed IP Networks: Uncompressed Active Video. Society of Motion Picture and Television Engineers, 2022.

[2] SMPTE ST 2110-22:2022. Professional Media Over Managed IP Networks: Constant Bit-Rate Compressed Video. Society of Motion Picture and Television Engineers, 2022.

[3] SMPTE ST 2110-30:2022. Professional Media Over Managed IP Networks: PCM Digital Audio. Society of Motion Picture and Television Engineers, 2022.

[4] SMPTE ST 2110-31:2022. Professional Media Over Managed IP Networks: AES3 Transparent Transport. Society of Motion Picture and Television Engineers, 2022.

[5] SMPTE ST 2110-40:2018. Professional Media Over Managed IP Networks: SMPTE ST 291-1 Ancillary Data. Society of Motion Picture and Television Engineers, 2018.

[6] SMPTE ST 2110-41:2022. Professional Media Over Managed IP Networks: Fast Metadata Framework. Society of Motion Picture and Television Engineers, 2022.

[7] SMPTE ST 2110-43:2021. Professional Media Over Managed IP Networks: Timed Text Markup Language for Captions and Subtitles. Society of Motion Picture and Television Engineers, 2021.

[9] SCTE 104 2018. Automation System to Compression System Communications Applications Program Interface (API). Society of Cable Telecommunications Engineers, 2018.

[10] W3C TTML2. Timed Text Markup Language 2 (TTML2). World Wide Web Consortium, 2018.

[11] ISO/IEC 21122-1:2019. Information technology — JPEG XS low-latency lightweight image coding system — Part 1: Core coding system. International Organization for Standardization, 2019.

[12] ITU-T H.265 | ITU-T H.265:2024. High efficiency video coding. International Telecommunication Union, 2024.

[15] SMPTE. SMPTE ST2110-41 Administrative Register. Society of Motion Picture and Television Engineers.


1. Statistical Multiplexing est un mécanisme utilisé depuis longtemps en diffusion DVB qui permet d’allouer dynamiquement le débit de chaque flux en temps réel selon la complexité de la scène ou tout autre critère.