Concevoir un programme de captation, suivi et traitement sonore du geste instrumental

Implications de la notion de Suivi de geste dans la conception du patch

Déclenchement du suivi et suivi de modèles

Le chercheur en informatique musicale développe donc un algorithme de suivi de geste et non pas de reconnaissance de geste comme c’était le cas dans BogenLied.
Le système informatique dont les bases sont ainsi jetées a besoin d’un point de départ à partir duquel déclencher le suivi. Cela tient aux :

  1. limites de puissance des ordinateurs actuels,
  2. contraintes compositionnelles du compositeur.

Couplé à un ordinateur d'une puissance infinie , le patch informatique pourrait déclencher à chaque instant une comparaison de ce qui est joué live et de tous les modèles gestuels enregistrés dans la machine. Partant du fait qu’il n’est plus question de reconnaissance de simples coups d’archets mais du suivi de gestes musicaux sur des temporalités plus longues, l’algorithme donnera à la fois :  

Mais alors, quelles données de différence avec le modèle choisir lorsqu’il y a plusieurs modèles possibles (si par exemple le début d’un geste est identique sur plusieurs modèles gestuels) ? 

Déclencher à chaque instant une comparaison avec tous les modèles est contre-productif pour ce que veut faire la compositrice du suivi de gestes dont elle connaît à priori la caractéristique (puisqu’elle a écrit la partition, et que ce n’est pas une œuvre ouverte). La partition qu'elle a mise en chantier implique de comparer un geste live avec un modèle gestuel pour obtenir des paramètres pour les transformations sonores (sans rajouter l’inconnue du modèle le plus proche). Ces contraintes nécessitent de déclencher manuellement le point de départ de la reconnaissance. L’algorithme va chercher à réaligner ce qui est joué avec ce qui est comparé, quantifiant dès lors donner directement des différences par rapport au modèle comparé. 

Dans l’entretien d’après séance du 12 avril 2007, le chercheur en informatique musicale revient sur les diverses possibilités techniques du module de suivi de geste. Ce dernier peut :

C’est la première possibilité que veut exploiter Florence Baschet pour son quatuor, elle enlève l’inconnue ‘modèle’ qui ne sert pas son objectif musical. D’autant plus que le chercheur en informatique musicale affirme : 

Frédéric Bevilacqua : Dans le cas de traitements portant sur la différence avec un modèle, le follower [N.D.A : follower = nom d’un élément de la librairie MnM qui sert au suivi de geste, elle même packagée avec FTM] est d’emblé crédible [N.D.A : il compare A’ avec A, et ne recherche pas un modèle parmi plusieurs] et c’est l’éloignement au modèle qui permet d’envoyer les paramètres de traitement.
Entretien d’après séance du 12 avril 2007 

Tandis que sur la seconde possibilité, dans le même entretien, il nous dit :

Frédéric Bevilacqua : Le follower exprime son avis dès le début mais il faut attendre un certain temps pour que l’on puisse accorder du crédit à ces résultats, or l’on ne sait pas exactement à partir de quel moment il convient d’approuver son estimation… »
Entretien d’après séance du 12 avril 2007

Fenêtre de reconnaissance

La reconnaissance de geste pourrait être faite à des échelles plus ou moins microscopiques, cela impliquant des fenêtres de reconnaissance de différentes tailles sur les données des capteurs (la taille de fenêtrage est un sous-échantillonnage des données).

Echantillonage (en vert) des données d'un capteur
2 tailles de fenêtres de reconnaissance (tous les points ou 1 point sur 3)
et leurs polynomes d'interpolation associés (en bleu, pour tous les points et en rouge pour 1 point sur 3)

Sur cette figure, une fenêtre de petite taille captera les oscillations fines de l'échantillonnage (en vert) et reconnaîtra le profil bleu alors qu’une fenêtre de plus grande taille reconnaîtra le profil rouge. Le follower (follower = module de suivi) accepte des données dont la période est au minimum de 1 milliseconde (dû à l’implémentation de l’hôte de la librairie : Max/MSP) sans limite maximum. Il est indiqué dans la documentation que des valeurs toutes les 5 à 20 millisecondes sont recommandées. Le chercheur en informatique musicale a fixé la fréquence des données à 200Hz, soit un échantillon toutes les 5 millisecondes. On voit qu'indépendamment du point de déclenchement, la taille de la fenêtre d'analyse peut avoir de l'importance.

Réalignement

Une fois la fenêtre d'échantillonnage sélectionnée, l’algorithme, via un modèle de chaînes de Markov, cherche à aligner ce qui est joué et le modèle gestuel.

Le modèle théorique

This text will be replaced
Entretien d’après séance du 12 avril 2007 sur l’algorithme d’alignement (modèle théorique)
Frédéric Bevilacqua y explique les chaînes de Markov.
L’exemple schématisé propose une fenêtre d’échantillonage qui ne prend qu’une donnée sur deux.

L'application pratique

This text will be replaced
Entretien du 8 mars 2007
Application pratique sur un exemple de réalignement sur des données des capteurs

Le patch lors de l'entretien du 8 Mars 2007

Comme synthèse, sur cette figure, copie d'écran de la vidéo du dessus, la visualisation du follower se trouve en bas à gauche de l'écran. Les 3 zones rectangulaires correspondent chacune à une visualisation des données enregistrées d'un capteur. Sur chacune d'elle, le système essaye d'aligner les données du capteur entrant aux données enregistrées.

Le(s) modèle(s) du suivi

L’idée que les instrumentistes doivent « enregistrer » les « modèles » de suiveur de geste ne va pas de soi. À l’origine du projet, le choix de ce qui fera office de modèle de référence pour la machine n’est pas tranché. Est-ce que le modèle c’est :

Il nous faut mettre en regard cette liste de possibles avec ce que peut faire techniquement le follower. Celui-ci attend des gestes joués live et des modèles enregistrés déjà de même nature ‘en entrée’. Et ces gestes sont des courbes temporelles à plusieurs dimensions, échantillonnées relativement bas (200Hz) par rapport à un son (généralement 44100Hz).

Dans l’entretien du 8 mars 2007, la compositrice détaille sa propre notion de modèle qu'elle oppose à une notion d’anti-modèle. Elle essaye de la faire intégrer au patch du chercheur en informatique musicale. Les anti-modèles sont, pour la compositrice, identiques aux modèles, exceptés pour une sous partie (par exemple : même geste mais avec une hauteur ou un tempo différent – entretien du 9 septembre 2007, ou bien absence d'une note – entretien du 8 mars 2007) et vont donc permettre de ne pas simplement « identifier des gestes » mais « mesurer des différences » (entretien du 8 mars 2007) et donner un petit peu plus de liberté aux interprètes.
Pour le chercheur en informatique musicale, bien que son patch n’intègre pas les notions de modèle et d’anti-modèle, il est possible d’insérer deux éléments ayant ou non un quelconque lien de parenté et de faire du suivi de geste. Il peut découper les modèles et anti-modèles en sous parties communes ou distinctes, puis mesurer les différences sous partie par sous partie pour chaque modèle.

Frédéric Bevilacqua : [...] pour vraiment tester cette idée de suivi il suffit de découper en petits extraits la pièce et une fois qu’il a fini la section 1, il passe à la 2 etc. ça, j’ai rajouté cette option, donc on a pu vraiment tester (avec Florence). Par exemple typiquement, lorsqu’on prend dans la même session une " Esquisse " [N.D.A. : figure musicale de quelques mesures écrite par la compositrice combinant un ou plusieurs gestes musicaux] pour faire un apprentissage et qu’on prend une autre " Esquisse " de la même session pour faire le suivi ça marche très très bien.
Entretien d’avant séance - 18 mai 2007

Ici, on comprend l’intérêt des 2 types de suivi évoqués dans le paragraphe Déclenchement du suivi et suivi des modèles, puisque l’on semble se diriger à cette période du travail d'expérimentation vers des passages de calcul de différences par rapport à un modèle, et d’autres passages où l’on veut aussi savoir de quel modèle ou anti-modèle on se trouve le plus proche. Néanmoins les notes, tempi etc. étant écrits sur la partition, cette notion de modèle et d’anti-modèle ne jouera de rôle que si la compositrice veut faire des transformations sonores dépendant de différences calculées dans des sections comportant modèle et anti-modèle.

Interface entre capteurs physiques et suivi de geste musical

Les archets de chacun des 4 instrumentistes possèdent différents capteurs capables de mesurer :

Si l’équipe du projet sait qu’elle ne mettra pas en place, a priori, un système autre que les capteurs physiques utilisés depuis le début, elle veut concevoir le système en imaginant une interface unique susceptible de fonctionner aussi bien avec tout autre dispositif de captation du geste musical, comme une caméra vidéo par exemple. Cela les aide dans la conception du dispositif à créer une interface générique distinguant fortement les capteurs physiques, dont ils doivent analyser les données numériques, des notions musicales (dont le geste) qu’ils doivent pouvoir suivre.

Pour les capteurs utilisés, de nombreuses variations sont envisagées : essayer de ne sélectionner que la pression ou pondérer les données des capteurs. En effet, comme indiqué précédemment, le follower s’attend à mettre en relation des courbes multidimensionnelles, et toutes les variations imaginables sont possibles pour fournir différentes courbes au follower. A l'époque de l’entretien du 18 mai 2007, le patch permet de sélectionner la visualisation d’un certain capteur en fonction de la section d’une " Esquisse ". Cela ne signifie pas que l'équipe va tester le suivi avec un seul capteur, mais cette possibilité n’est pas écartée.

Les types de différences

Frédéric Bevilacqua : En fait, de manière sous-entendue, il y a à la fois des différences écrites [1], mais après il y aura des différences vraiment d’interprétation [2] et des différences entre instrumentistes [3] qu’on verra toujours, et donc pour l’instant on fait pas vraiment la différence entre ces trois types de différence. Donc c’est vraiment sur ça qu’[il faut qu’]on avance, à la fois techniquement et conceptuellement ».
Entretien d’après séance – 12 avril 2007

Le chercheur en informatique musicale fait référence à des types de différences que l’on peut évaluer :

  1. Concernant les différences écrites, on peut donner l'exemple des types de suivis utilisé : soit on fait une reconnaissance d’un modèle parmi plusieurs modèles et l'on obtient un indice de proximité avec chaque modèle, soit on calcul des différences par rapport à un unique modèle, 
  2. Concernant les différences d'interprétation, on peut donner comme exemple ici les notions de modèles et d’anti-modèles explicitées plus haut, 
  3. Concernant les différences entre instrumentiste, on peut donner comme exemple évident les gestes du violoncelliste qui sont bien différents du violoniste.

Ces trois types de différences participent à l’ouverture des recherches. À l’intérieur de ces possibles, de nombreuses questions doivent être abordées par le chercheur en informatique musicale et la compositrice pour concrétiser leur projet commun.

Frédéric Bevilacqua nous montre par ailleurs le 12 avril 2007 plusieurs types d’analyses des données qu’il avait prévu pour la séance, et qu’il n’a pas pu utiliser-évaluer faute de temps. Ces analyses complètent les types de différences explicitées précédemment, bien qu'elles soient dépendantes du geste. On ne peux donc les utiliser que si l'on connait le geste musical effectué par les instrumentistes. Ces types d’analyses permettaient :

Cela, alors que le 8 mars 2007, Frédéric Bevilacqua nous indiquait ne regarder que les données brutes des 6 capteurs, pas les dérivées ou d’autres transformations de ces données.

Il ne s'agit pas là d'un brusque revirement vers la caractérisation montrée précédemment des détachés, martelés, spicattos, puisque ces deux nouveaux types d'analyse ont lieu sur une échelle temporelle plus longue que la simple note. Ceux sont plutôt des types d'analyse qui pourraient jouer le rôle d'intermédiaires dans la caractérisation du geste par la machine pour peut-être s'affranchir de l'enregistrement de modèle ?
(Pour détailler davantage, un calcul continue de l'oscillation de l'archet et un suivi de hauteur permettrait par exemple de reconnaître et suivre des trémolos si l'on modélise le fait que le trémolo se fait à hauteur fixe et oscillation rapide constante.)