Projet 3Dôme
Dernière mise à jour :
Pierre Cochard, Thibaud Keller, Edgar Nicouleau, György Kurtág, Myriam Desainte-Catherine.
Historique
Depuis mars 2017, le SCRIME aborde la problématique de la spatialisation réaliste des environnements 3D, notamment mise en application dans le dôme par les techniques d’ambisonie.
Conjointement la problématique scientifique du temps contraint/souple a pu être mise au service d’un système interactif où se croisent le déroulement linéaire, l’arborescence, le déclenchement conditionnel et les fenêtres de contrôle accordées aux utilisateurs.
L’Ambisonie est une technique d’enregistrement et de spatialisation permettant une représentation sphérique du champ sonore. L’écoute ambisonique est transférable à de nombreux dispositifs. Elle peut être adaptée à l’écoute au centre d’une structure en cercle (planaire), en sphère ou en hémisphère (périphonique), disposant plusieurs enceintes de façon homogène. Il est aussi possible d’obtenir un rendu binaural récréant un ensemble d’enceintes virtuelles englobant l’auditeur en associant les filtrages HRTF correspondant à leurs positions respectives. Le traitement que subit le champ sonore diffère ainsi en fonction du système utilisé pour le retranscrire et rend le principe de l’Ambisonie dépendant du milieu de diffusion. L’adaptation nécessaire de l’ambisonie fait entrer en ligne de compte de multiples paramètres, le premier d’entre eux concernant l’ordre de décomposition du champ sonore. Il est défini par une hiérarchie d’harmoniques sphériques illustrée ci-dessus sur la Figure 1, et qui représente autant d’axes de propagation du son, de la paroie d’une sphère vers son centre. Techniquement, la première forme au sommet de la pyramide est identifiée comme l’ordre 0. Elle correspond à la propagation omnidirectionnelle du son et n’offre aucun indice de directivité. Le premier ordre est représenté ici par les deux premières lignes de la pyramide. L’ordre 0 est donc compris dans l’ordre 1, et par hérédité, tout ordre plus élevé comprend la somme des ordres qui le précèdent. De la même façon, la suite des ordres de 1 à 5 peut être lue sur la figure à partir de la seconde ligne en ajoutant la ligne suivante à chaque incrémentation. Plus l’ordre est élevé, plus le placement du son dans l’espace se précise, ajustant le diamètre de son origine à la surface de la sphère. Élevé à un ordre infini, impossible en application, le champ sonore pourrait être reproduit parfaitement, accordant à chaque son les coordonnées et l’épaisseur exactes dans la sphère. La représentation exacte du champ sonore existe cependant à tous les ordres par zones restreintes dans une certaine limite de fréquences. Le rayon de cette zone est calculé par l’équation suivante : r = lc/2pif′ où l correspond à l’ordre ambisonique, f la fréquence et c la vitesse constante du son. La taille de cette zone est inférieure à la taille moyenne d’une tête humaine à partir de 600 Hz au premier ordre et de 1800 Hz au troisième, ce qui peut aussi créer des problèmes de déphasages à l’écoute. Une reproduction fidèle à l’oreille du champ sonore jusqu’à 20 KHz nécessiterait d’atteindre le trente deuxième ordre diffusé sur un ensemble de mille enceintes.
Cette figure illustre comment la propagation du son est rendue possible sur plusieurs axes, verticaux, horizontaux et obliques pour les ordres supérieurs, précisant l’influence des sources par la décomposition harmonique croissante. C’est à partir de ce principe que se définit le compromis propre à l’Ambisonie, sur lequel s’effectue le choix de l’ordre optimal à utiliser en fonction du nombre d’enceintes disponibles pour la diffusion. Avec une disposition périphonique, le compromis se fait entre la précision du placement des sources et l’homogénéité de volume en tous points du système. Si l’ordre est trop élevé pour la structure, on note une perte conséquente de volume est subi pour les sources placées au voisinage des points les plus distants des enceintes environnantes. Cet espace entre les enceintes dépasse alors le diamètre occupé par la source à la surface de la sphère. Le problème est moindre lorsque qu’il s’agit d’une diffusion planaire. Dans ce cas particulier, le premier ordre peut être privilégié puisqu’il spatialise les sons principalement sur les axes horizontaux. La restitution binaurale peut aussi échapper à ce compromis en augmentant le nombre d’enceintes virtuelles. Il est aussi important de noter qu’un traitement du champ sonore demande une puissance de calcul plus importante lorsque qu’augmente l’ordre de décomposition. Cela signifie que l’écoute binaurale est d’autant plus coûteuse aux ordres élevés pour le processeur puisqu’au programme ambisonique s’ajoute un nombre croissant de convolutions pour retranscrire la position des enceintes virtuelles supplémentaires. Les programmes de spatialisation implémentent ainsi un ordre de décomposition prédéfini à la compilation. Ils se présentent généralement sous la forme d’une suite de modules dédiés respectivement à l’encodage, à la transformation et au décodage. Depuis le son original, enregistré ou synthétisé, jusqu’à sa restitution, la création de scènes sonores en 3 dimensions implique plusieurs étapes. Tout d’abord, l’encodage ambisonique traduit les sources audios au “format B” (B-format) par lequel sont définies leurs coordonnées à la surface de la sphère, soit par une matrice fixe et prédéfinie correspondant à une configuration d’enregistrement panoramique, soit en permettant la définition dynamique de ces coordonnées pour chacune des sources. À la sortie des encodeurs, le champ sonore au format B est découpé en plusieurs pistes uniques contenant chacune un élément ambisonique ; qui peuvent être visualisés plus haut comme axes de propagation. Suivant toujours la hiérarchie des harmoniques sphériques, le nombre de pistes audio encodées est calculé par l’équation n = (l + 1)2 où l correspond à l’ordre ambisonique. Ainsi, le format B comporte quatre pistes audios au premier ordre, neuf pistes au troisième ordre, trente six au cinquième, etc. Ce nombre de pistes est indépendant du nombre de sources encodées ou du nombre de sorties audios prévues. Les pistes au format B de chaque source additionnent leurs signaux entre elles sans jamais dépasser leur nombre défini par l’ordre. Le nombre de sorties audio est quant à lui entièrement dépendant du décodage. Une fois l’encodage effectué, la scène peut subir différents types de transformations. Ces effets prennent en entrée une suite de pistes successives constituant le format B et restitue le même nombre de pistes au même format. Le décodage traduit finalement les éléments ambisoniques du format B en pistes audio standards distribuées selon la disposition préétablie de chaque enceinte. Les décodeurs sont ainsi créés pour reproduire le champ sonore sur un dispositif unique. Dans le cas du rendu binaural, la disposition prédéfinie des canaux de sorties correspond à un ensemble fixe de coordonnés virtuelles. Le filtrage HRIR n’advient qu’en dernier lieu.