Dernières nouvelles

Marché du géotextile en polypropylène 2023

Les 9 meilleurs tissus paysagers de 2023

May 16, 2023

Le conseil scolaire approuve 500 000 $ pour le pavage

Jul 05, 2023

Le marché des géosynthétiques en Asie du Sud atteint 2 363,1 millions de dollars américains à un taux gracieux de 12,2 % d'ici 2032

Dec 31, 2023

Marché des produits géotextiles 2023 Opportunités commerciales mondiales

Sep 19, 2023

Estimation de mouvement pour les grands déplacements et déformations

Aug 22, 2023

Rapports scientifiques volume 12, Numéro d'article : 19721 (2022) Citer cet article

1721 accès

2 Citations

126 Altmétrique

Détails des métriques

Une correction de l'auteur à cet article a été publiée le 14 décembre 2022

Cet article a été mis à jour

Le flux optique à grand déplacement fait partie intégrante de nombreuses tâches de vision par ordinateur. Les techniques de flux optique variationnel basées sur un schéma grossier à fin interpolent les correspondances éparses et optimisent localement un modèle d'énergie conditionné sur la couleur, le gradient et le lissage, les rendant sensibles au bruit dans les correspondances éparses, les déformations et les déplacements arbitrairement grands. Cet article aborde ce problème et présente HybridFlow, un cadre d'estimation de mouvement variationnel pour les grands déplacements et déformations. Une approche d'appariement hybride multi-échelle est effectuée sur les paires d'images. Des grappes à échelle grossière formées en classant des pixels en fonction de leurs descripteurs de caractéristiques sont mises en correspondance à l'aide des descripteurs de contexte des grappes. Nous appliquons une mise en correspondance de graphes multi-échelles sur les superpixels à échelle plus fine contenus dans chaque paire appariée de clusters à échelle grossière. Les petits clusters qui ne peuvent pas être subdivisés davantage sont mis en correspondance à l'aide de la correspondance d'entités localisées. Ensemble, ces correspondances initiales forment le flux, qui est propagé par une interpolation préservant les contours et un raffinement variationnel. Notre approche ne nécessite pas de formation et est robuste aux déplacements substantiels et aux transformations rigides et non rigides dues au mouvement dans la scène, ce qui la rend idéale pour l'imagerie à grande échelle telle que l'imagerie aérienne. Plus particulièrement, HybridFlow travaille sur des graphes orientés de topologie arbitraire représentant des groupes perceptuels, ce qui améliore l'estimation du mouvement en présence de déformations importantes. Nous démontrons les performances supérieures d'HybridFlow par rapport aux techniques variationnelles de pointe sur deux ensembles de données de référence et rapportons des résultats comparables avec des techniques de pointe basées sur l'apprentissage en profondeur.

L'estimation de mouvement dense à partir du flux optique est un composant essentiel dans de nombreuses applications de vision par ordinateur, allant de la conduite autonome1, au suivi et à la segmentation multi-objets2, à la reconnaissance d'action3, à la stabilisation vidéo4, pour n'en nommer que quelques-unes. Par conséquent, l'estimation du flux optique contribue directement aux performances et à la précision de ces applications (Fig. 1).

(a) Cadre d'image d'entrée. (b) Grappes à grande échelle à partir des descripteurs de caractéristiques des pixels. (c) Correspondances graphiques codées par couleur d'un groupe à échelle grossière ; première image (a). (d) Correspondances graphiques codées par couleur pour (c); deuxième cadre. ( e ) Vecteurs de mouvement issus de la correspondance graphique des superpixels à l'échelle la plus fine. ( f ) Vecteurs de mouvement à partir de la correspondance des caractéristiques des pixels dans de petits groupes. ( g ) Flux interpolé à partir des vecteurs de mouvement initiaux combinés (e + f). (h) Flux optique final après raffinement variationnel. Erreur moyenne au point final (EPE) = 0,157. Les pixels dans (c,d) sont agrandis de $10 \times 10$ pour plus de clarté dans la visualisation.

La recherche sur les techniques d'estimation de mouvement dense est en cours depuis les années 1950, lorsque Gibson l'a proposée pour la première fois dans la réf.5. Malgré les recherches actives, à ce jour, l'estimation du flux optique reste un problème de recherche ouvert. Ceci est principalement attribué aux deux défis suivants : les occlusions et les grands déplacements.

Les occlusions peuvent apparaître sous plusieurs formes ; auto-occlusion, occlusion inter-objet ou occlusion d'arrière-plan. Les solutions typiques basées sur une approche variationnelle utilisent une fonction de pénalité robuste et des régularisateurs qui visent à réduire les erreurs d'occlusion6,7. Cependant, ils échouent toujours dans les cas où les pixels disparaissent entre des images consécutives. Plus récemment, de nombreuses techniques basées sur le deep learning ont été proposées8,9. Dans de nombreux cas où la vérité terrain est disponible, leurs performances surpassent celles des techniques variationnelles sur des ensembles de données de référence ; cependant, l'application de ces réseaux sur des séquences d'images réelles est une tâche non triviale qui nécessite une nouvelle formation, un réglage fin et souvent une annotation manuelle.

D'autre part, pour les grands déplacements, les solutions suivent un modèle grossier à fin qui introduit des erreurs supplémentaires dues au suréchantillonnage et à l'interpolation des échelles grossières. Pour atténuer certaines des erreurs d'interpolation, Revaud et al.10 ont proposé EpicFlow, une interpolation préservant les bords des correspondances éparses utilisée pour initialiser l'estimation du mouvement du flux optique dans une approche variationnelle. Plusieurs techniques utilisant EpicFlow ont depuis été proposées11,12, qui traitent de la sensibilité au bruit dans les correspondances rares. Le résultat est une réduction des erreurs d'interpolation dans le flux optique estimé au prix d'un lissage excessif des structures fines et d'une incapacité à capturer des objets à petite échelle et se déplaçant rapidement dans l'image. Ainsi, la précision des correspondances creuses initiales a un effet néfaste sur la précision du flux optique.

Cet article présente HybridFlow (Fig. 2), un cadre robuste d'estimation de mouvement variationnel pour les grands déplacements et déformations basé sur l'appariement hybride multi-échelles. De manière unique, HybridFlow exploite la forte nature discriminante des descripteurs de caractéristiques, combinée à la robustesse de la correspondance de graphes sur des topologies arbitraires. Nous classons les pixels en fonction de l'argmax de leur descripteur de contexte et formons des clusters à grande échelle. Nous suivons une approche multi-échelle, et les superpixels à échelle fine résultant du regroupement perceptif des pixels contenus dans le cluster parent à grande échelle forment la base du traitement ultérieur. L'appariement de graphes est effectué sur les graphes représentant les superpixels à échelle fine en estimant simultanément les correspondances de nœuds de graphe sur la base des similitudes de premier et de second ordre et d'une transformation lisse non rigide entre les nœuds. L'appariement de graphes est un problème NP-difficile ; ainsi, la factorisation des graphes en produits de Kronecker garantit une complexité de calcul traitable. Ce processus peut être répété à plusieurs échelles pour gérer des images arbitrairement grandes. À l'échelle la plus fine, les descripteurs de caractéristiques des pixels sont mis en correspondance en fonction de leur distance $\mathscr {L}_{2}$. La correspondance des caractéristiques au niveau du pixel est également effectuée sur des clusters trop petits pour être subdivisés en superpixels. Nous combinons les deux ensembles de correspondances de pixels pour former les vecteurs de mouvement creux initiaux à partir desquels le flux optique est interpolé. Enfin, un raffinement variationnel est appliqué au flux optique. HybridFlow est robuste aux grands déplacements et déformations et a une empreinte de calcul minimale par rapport aux approches basées sur l'apprentissage en profondeur. Un avantage significatif de notre technique est que l'utilisation de la correspondance de graphes multi-échelles réduit la complexité de calcul de $\mathscr {O}(n^{2})$ à $\sum _{i=0}^{k} \mathscr {O}(k^2)$ où k est toujours inférieur à la taille du superpixel |s| et significativement plus petit que n, c'est-à-dire $k< |s|<< n$. Nos expériences démontrent l'efficacité de notre technique dans l'estimation du flux optique. Nous évaluons HybridFlow sur deux ensembles de données de référence (MPI-Sintel13, KITTI-201514) et le comparons aux techniques variationnelles de pointe. Hybridflow, surpasse toutes les autres techniques variationnelles et, en moyenne, donne des résultats comparables avec les méthodes basées sur l'apprentissage en profondeur.

HybridFlow : une approche d'appariement hybride multi-échelle est effectuée sur les paires d'images. De manière unique, HybridFlow exploite la forte nature discriminative des descripteurs de caractéristiques, combinée à la robustesse de la correspondance de graphes sur des topologies de graphes arbitraires. Des grappes à échelle grossière sont formées sur la base des descripteurs de caractéristiques des pixels et sont ensuite subdivisées en superpixels SLIC à échelle plus fine. L'appariement de graphe est effectué sur les superpixels contenus dans les clusters à grande échelle appariés. Les petits clusters qui ne peuvent pas être subdivisés davantage sont mis en correspondance à l'aide de la correspondance d'entités localisées. Ensemble, ces correspondances initiales forment le flux, qui est propagé par une interpolation préservant les contours et un raffinement variationnel.

Pour résumer, nos contributions sont :

Une approche d'appariement hybride qui combine de manière unique la robustesse de la détection et de l'appariement des caractéristiques avec l'invariance aux transformations rigides et non rigides de l'appariement de graphes. La combinaison se traduit par une tolérance élevée aux grands déplacements et déformations par rapport à d'autres techniques.

Une fonction objective basée sur des similitudes de premier et de second ordre pour faire correspondre les nœuds et les arêtes du graphe, ce qui se traduit par une meilleure correspondance, comme le montrent nos expériences.

Un cadre variationnel complet pour l'estimation du flux optique qui ne nécessite pas de formation et qui est robuste aux grands déplacements et déformations causés par le mouvement dans la scène tout en offrant des performances supérieures aux techniques variationnelles de pointe et des performances comparables aux techniques de pointe. techniques de pointe basées sur l'apprentissage en profondeur sur des ensembles de données de référence.

Le flux optique est un champ vectoriel 2D décrivant le mouvement apparent des objets dans la scène. Ce champ de flux optique peut être très informatif sur les relations entre le mouvement des spectateurs et la scène 3D.

Au fil des ans, de nombreuses techniques ont été proposées suivant la voie prédominante d'estimation du flux optique à l'aide de méthodes variationnelles15. Le flux optique est estimé via l'optimisation d'un modèle énergétique conditionné par la luminosité/couleur, le gradient et la douceur de l'image. Ce modèle énergétique échoue lorsqu'il s'agit de grands déplacements dus au mouvement dans la scène car sa solution est approximative et optimise localement la fonction.

Pour relever ce défi, Anandan16 a proposé un schéma grossier à fin. Les techniques grossières à fines suréchantillonnent et interpolent le flux de l'échelle la plus fine de la pyramide à la plus grossière. Ces techniques peuvent traiter de grands déplacements ; cependant, cela se fait au prix d'un lissage excessif des structures fines et de l'incapacité de capturer des objets à petite échelle et en mouvement rapide.

Dans le même temps, les chercheurs ont exploré l'intégration de l'appariement des caractéristiques dans l'estimation du flux optique. Revaud et al.17 ont récemment présenté l'une des techniques variationnelles les plus prometteuses où un descripteur HOG a été utilisé comme terme d'appariement de caractéristiques dans la fonction énergétique. Leur technique peut faire face aux déformations et est robuste aux textures répétitives. Dans des travaux ultérieurs, les auteurs ont proposé EpicFlow, qui effectue une interpolation clairsemée à dense sur les correspondances et estime le flux optique tout en préservant les contours10. Hu et al.12 se sont appuyés sur ce travail et ont proposé une technique d'interpolation robuste pour traiter la sensibilité d'EpicFlow au bruit dans les correspondances initiales en imposant un flux de voisinage correspondant dans les deux images et en ajustant un modèle affine aux correspondances clairsemées. Jusqu'à présent, cette amélioration produisait des performances supérieures à la meilleure précédente, qui était basée sur une technique grossière à fine utilisant PatchMatch11.

Plus récemment, plusieurs techniques ont été proposées basées sur les réseaux de neurones convolutifs (CNN). Ceux-ci estiment le flux optique de bout en bout en utilisant l'apprentissage supervisé18,19,20 ou l'apprentissage non supervisé21,22,23. L'une des approches récentes les plus performantes basées sur CNN est SelFlow24. SelFlow est une approche d'apprentissage auto-supervisée pour le flux optique qui, jusqu'à récemment, produisait la plus grande précision parmi toutes les méthodes d'apprentissage non supervisées. Les auteurs y sont parvenus en créant des occlusions synthétiques à partir de superpixels perturbateurs. La technique de pointe actuelle basée sur CNN est RAFT25, dans laquelle des caractéristiques par pixel sont utilisées dans une architecture de réseau profond de transformées récurrentes. RAFT et ses variantes telles que GMA26 atteignent actuellement les meilleures performances en signalant l'erreur de point final moyenne la plus faible pour tous les ensembles de données de référence de flux optique importants.

Actuellement, l'erreur de point final moyenne (AEE/EPE) rapportée sur Sintel-final pour la technique d'apprentissage en profondeur la plus performante (CRAFT) est de 2,424, et pour la technique variationnelle la plus performante (Hybridflow-ours) est de 5,121 ; une différence de moins de 2,7 pixels sur l'ensemble d'images de 562 images de 1 024 $\times $ 436. Bien que les techniques d'apprentissage en profondeur engendrent des performances supérieures aux méthodes variationnelles sur des ensembles de données de référence pour lesquels la vérité terrain est disponible, elles sont inutilisables en conditions réelles. séquences d'images qui ont rarement associé la vérité terrain, et la formation et le réglage fin deviennent impossibles. De plus, même dans les cas où la vérité sur le terrain peut être disponible, la formation et le réglage fin sont des opérations hors ligne chronophages qui les rendent inadaptées aux scénarios nécessitant des performances en temps réel ou interactif.

Pour ces raisons, nous proposons une technique de flux optique variationnel qui est indépendante du contenu des séquences d'images et n'impose pas d'exigences supplémentaires pour l'apprentissage et le réglage fin. Notre méthode suit une approche hybride pour l'appariement afin d'éliminer les erreurs dans les correspondances creuses initiales introduites à partir de grands déplacements et déformations. HybridFlow exploite la forte nature discriminante des descripteurs de caractéristiques combinée à la robustesse de la correspondance de graphes déformables. Contrairement à l'état de l'art variationnel, qui utilise une structure de grille régulière dans leur schéma d'appariement grossier à fin, HybridFlow fonctionne à une seule échelle d'image et à plusieurs échelles de regroupement, éliminant le lissage excessif et la gestion des petites l'échelle et les objets en mouvement rapide mieux. Plus particulièrement, notre méthode ne limite pas les déformations en appliquant une correspondance de voisinage lisse, mais utilise à la place une correspondance de graphe déformable, qui permet des transformations rigides et non rigides entre les superpixels voisins.

Un graphe $G = \{P, E, T\}$ est constitué de nœuds P interconnectés par des arêtes E. Une matrice d'incidence nœud-arête T spécifie la topologie du graphe G. Les nœuds sont représentés sous forme matricielle comme $ P = \big [ \vec{p_{1}}, \vec{p_{2}}, \dots , \vec{p_{N}} \big [ \in {\mathbb {R}}^ {dim(\vec{p}) \times N}$, où $dim : \vec{v} \longrightarrow \mathbb {R}$ est une fonction qui renvoie la cardinalité d'un vecteur $\vec{ v}$. De même, les arêtes sont représentées sous forme matricielle par $ E = \big [ \vec{e_{1}}, \vec{e_{2}}, \dots , \vec{e_{M}} \big [ \ dans \mathbb {R}^{dim(\vec{e}) \times M}$. Une fonction de pondération des arêtes $w : E \times E \longrightarrow \mathbb {R}$ attribue des poids aux arêtes. Compte tenu des définitions ci-dessus, la matrice d'incidence est définie comme $T \in \{0,1\}^{N\times M}$ où $T_{(i,k)} = T_{(j,k )} = 1$, si une arête $e_{k} \in E$ relie les nœuds $p_{i}, p_{j} \in P$, sinon elle est mise à 0.

Faire correspondre deux graphiques $G_{1} = \{P_{1}, E_{1}, T_{1}\}$ et $G_{2} = \{P_{2}, E_{2}, T_{2}\}$ est un problème NP-difficile pour lequel des solutions exactes ne peuvent être trouvées que si le nombre de nœuds et d'arêtes est significativement petit, par exemple $N, M < 15$. Les solutions proposées formulent généralement la correspondance de graphes comme un problème d'affectation quadratique (QAP) et fournissent une approximation de la solution27. Cela nécessite le calcul de deux matrices d'affinité : $A^{P}_{1,2} \in \mathbb {R}^{N\times N}$ qui encode les similitudes entre les nœuds dans $G_{1 }$ et $G_{2}$, et $A^{E}_{1,2} \mathbb {R}^{M\times M}$ qui encode les similitudes entre les arêtes dans $ G_{1}$ et $G_{2}$. Les fonctions $\lambda ^{P} : P \times P \longrightarrow \mathbb {R}$ et $\lambda ^{E} : E \times E \longrightarrow \mathbb {R}$ mesurent les similitudes entre les nœuds et les arêtes, respectivement. Donc pour deux nœuds correspondants $p_{i} \in P_{1}$ de $G_{1}$ et $p_{k} \in P_{2}$ de $G_{2} $, l'élément de la matrice d'affinité des nœuds est $A^{P}_{i,k} = \lambda ^{P}(p_{i}, p_{k})$. De même, pour les arêtes $e_{a} \in E_{1}$ de $G_{1}$ et $e_{b} \in E_{2}$ de G2, l'élément de matrice d'affinité d'arête est $A^{E}_{a,b} = \lambda ^{E}(e_{a}, e_{b})$.

Compte tenu des définitions ci-dessus, la solution pour faire correspondre $G_{1}$ et $G_{2}$ équivaut à trouver la matrice de correspondance $C_{1,2} \in \{0,1\} ^{N_{1}\times N_{2}}$ entre les nœuds de $G_{1}$ et $G_{2}$, qui maximise,

où ${\textbf {1}}_{C_{1,2}} \in \{0,1\}^{N_{1}\times N_{2}}$ est la fonction caractéristique, et \ ({\textbf {K}} \in \mathbb {R}^{N_{1}N_{2}\times N_{1}N_{2}}\) est une matrice d'affinité composite qui combine la matrice d'affinité de nœud \ (A^{P}_{1,2}\) et la matrice d'affinité des bords $A^{E}_{1,2}$. L'élément de ${\textbf {K}}((p_{i}p_{j})_{1}, (p_{k}p_{l})_{2})$ pour les nœuds $ p_{i}, p_{j} \in P_{1}$, $p_{k}, p_{l} \in P_{2}$, et les arêtes reliant ces nœuds $e_{a} \in E_{1}$, $e_{b} \in E_{2}$ respectivement, est calculé comme suit :

Un exemple est montré sur la figure 3. Intuitivement, si les deux nœuds considérés dans chaque graphe sont co-localisés, c'est-à-dire qu'il n'y a pas d'arête les reliant, alors la valeur de l'élément est la similarité de la fonction $\lambda ^{P} (.,.)$ pour les nœuds. Si les deux nœuds sont différents, c'est-à-dire qu'il y a une arête qui les relie, alors la valeur de l'élément est la similarité de la fonction $\lambda ^{E}(.,.)$ pour les arêtes qui se connectent ; sinon, il est mis à 0.

Deux nœuds dans $G_{1}$ et $G_{2}$. Les valeurs des éléments dans ${\textbf {K}}$ sont calculées selon les équations. (4) et (5).

La figure 2 et l'algorithme 1 résument les étapes de la technique proposée. HybridFlow est le flux raffiné résultant de l'interpolation des flux initiaux combinés calculés à partir des correspondances de graphiques clairsemés à partir de superpixels et des correspondances de caractéristiques de pixels dans de petits clusters, comme expliqué ci-dessous.

Les descripteurs de caractéristiques codent des informations discriminantes sur un pixel et forment la base du regroupement et de la correspondance perceptifs. Nous menons des expériences avec trois descripteurs de fonctionnalités différents : rootSIFT proposé dans la réf.28, DeepLab pré-entraîné sur ImageNet et des encodeurs pré-entraînés avec la même architecture que dans la réf.25. Comme discuté plus loin dans les résultats expérimentaux et la section "Détails de la mise en œuvre", ce dernier descripteur donne les meilleures performances. Ensuite, nous regroupons les pixels en fonction de leurs descripteurs de caractéristiques pour remplacer la structure rigide de la grille de pixels, comme illustré à la Fig. 1b. Plus précisément, nous classons chaque pixel comme la valeur argmax de son descripteur de caractéristiques à N dimensions et les agrégeons en grappes. Ainsi, un pixel p se voit attribuer un indice de cluster $i_{p}$ donné par,

où $\mathscr {F}_{c}$ est le descripteur de la fonctionnalité. Par conséquent, cela se traduit par un nombre arbitraire de clusters à grande échelle dans chaque image appariés en fonction de leurs indices de cluster. Un cluster peut être non contigu. Étant donné que l'indice est calculé à partir du descripteur de caractéristique comme dans l'équation. (3), il spécifie la classe de l'objet et est utilisé lors de la mise en correspondance de graphes pour faire correspondre les clusters de la même classe, comme expliqué dans la section suivante.

Les pixels contenus dans des clusters d'une surface inférieure à 10 000 sont appariés en fonction de la similarité de leurs descripteurs de caractéristiques à l'aide de la somme des différences au carré (SSD) avec un test de rapport. Les valeurs aberrantes dans les correspondances initiales sont supprimées du traitement ultérieur à l'aide de RANSAC, qui trouve une matrice fondamentale localisée par cluster.

Le flux clairsemé initial résultant de cette étape est constitué du flux calculé à partir de chacune des caractéristiques inlier. La figure 1f montre le flux initial résultant de la correspondance clairsemée des caractéristiques des pixels contenus dans tous les petits clusters. La taille des pixels est agrandie de $10 \fois 10$ pour plus de clarté dans la visualisation.

Les clusters à grande échelle avec une surface supérieure à 10 000 pixels sont en outre regroupés par un simple clustering itératif linéaire (SLIC) qui adapte le clustering k-means pour regrouper les pixels en régions atomiques perceptuellement significatives29. Le paramètre $\kappa $ est calculé en fonction de la taille de l'image et de la taille de superpixel souhaitée et est donné par $\kappa = \frac{|I|}{|s|}$ où $|s| \ environ 2223, s \in \mathscr {S}$, et |I| est la taille de l'image. Cela limite le nombre de superpixels de taille approximativement égale $\mathscr {S}$; dans nos expériences discutées dans la section "Détails de mise en œuvre", la valeur optimale pour $\kappa $ $\approx 250$ à 300. Pour les superpixels à échelle plus fine $\mathscr {S}$, un graphique est construit où chaque nœud correspond au centroïde d'un superpixel, et les arêtes correspondent au résultat de la triangulation de Delaunay comme expliqué dans la section "Correspondance de graphes" suivante.

Les deux ensembles de superpixels contenus dans les groupes d'images appariés à grande échelle $I_{1}, I_{2}$ sont représentés avec le modèle de graphe décrit dans la section "Modèle de graphe et appariement". Pour chaque superpixel S, les nœuds P sont un sous-ensemble de tous les pixels p de S soit $P \subseteq \{p : \forall p \in S \in I\}$. Les arêtes E et la topologie T de chaque graphe sont dérivées d'une triangulation de Delaunay des nœuds P. Le graphe est non orienté, et la fonction de poids des arêtes w(., .) est symétrique par rapport aux arêtes $\vec{e_{a} }, \vec{e_{b}} \in E$, tel que $w(\vec{e_{a}}, \vec{e_{b}}) = w(\vec{e_{b} }, \vec{e_{a}})$. Les fonctions de similarité $\lambda ^{P}(.,.)$ et $\lambda ^{E}(.,.)$ sont également symétriques ; pour $p_{i}, p_{j} \in P_{1}$, $p_{k}, p_{l} \in P_{2}$, et les arêtes $e_{a} \ dans E_{1}$, $e_{b} \in E_{2}$, les fonctions de similarité sont données par,

où $\Phi ^{\circ }$ est donné par,

$f: P \longrightarrow S$ est un descripteur de caractéristique de cardinalité S pour un nœud $p \in P$, $\mathscr {C}: P \longrightarrow 6$ est une fonction qui calcule les 6 -vecteur $<\mu _{r}, \mu _{g}, \mu _{b}, \sigma _{r}, \sigma _{g}, \sigma _{b}>$ contenant moyennes de distribution de couleur et variances ($\mu , \sigma $) à p modélisées comme une gaussienne 1D pour chaque canal de couleur, $d^{P} : S \times S \longrightarrow \mathbb {R}$ est la norme $\mathscr {L}^{1}$ de la différence entre les descripteurs de caractéristiques de deux nœuds dans $p_{i}, p_{j}, p_{k}, p_{l} \in P$, $d^{E} : \mathbb {R} \times \mathbb {R} \longrightarrow \mathbb {R}$ est la différence entre les angles $\theta _{e_{a}} , \theta _{e_{b}}$ des deux arêtes $e_{a}\in E_{1}, e_{b}\in E_{2}$ aux axes horizontaux, et $d ^{\mathscr {C}} : 6 \times 6 \longrightarrow \mathbb {R}$ est la norme $\mathscr {L}^{1}$ de la différence entre les deux 6 vecteurs contenant la couleur informations de distribution pour les deux nœuds dans $p_{i}, p_{j}, p_{k}, p_{l} \in P$.

$\Phi ^{1}_{*}$ signifie les similitudes de premier ordre et mesure les similitudes entre les nœuds et les arêtes des deux graphes. En plus des similitudes de premier ordre $\Phi ^{1}_{*}$, les fonctions dans les équations ci-dessus définissent des similitudes supplémentaires de second ordre $\Phi ^{2}_{*}$ qui ont montré qu'ils amélioraient les performances de l'appariement30. Autrement dit, au lieu d'utiliser uniquement des fonctions de similarité qui entraînent de petites différences entre des dégradés / couleurs similaires et de grandes différences, par exemple du premier ordre, nous incorporons en outre les similitudes de second ordre définies ci-dessus, qui mesurent la similitude entre les deux dégradés et couleurs en utilisant la distance entre leurs différences31. Par exemple, la similarité de premier ordre $\Phi ^{1}_{gradient}$ calcule la distance entre les deux descripteurs de caractéristiques dans les deux graphiques, c'est-à-dire $\lambda ^{P}(p_{i}, p_ {k})$ dans l'éq. (4), alors que la similarité de second ordre calcule la distance entre les différences de descripteur de caractéristiques des points finaux dans chaque graphique, c'est-à-dire $\Phi ^{2}_{gradient}$ et $\Phi ^{2} _{couleur}$ dans les équations. (4) et (8). Un descripteur $f(s_{i})$, tel que défini dans l'Eq. (6), est calculé pour chaque nœud centroïde représentant le superpixel $s_{i} \in \mathscr {S}$ comme la moyenne des descripteurs de caractéristiques de tous les pixels qu'il contient $f(s_{i}) = \frac{1}{|s_{i}|} \sum _{\forall p\in s_{i} \subset I} \phi _{p}$ où $|s_{i}|$ est le nombre de pixels dans le superpixel $s_{i}$, et $\phi _{p}$ est le descripteur de caractéristique du pixel $p\in s_{i} \subset I$.

Compte tenu des définitions de fonctions ci-dessus, la correspondance de graphes est résolue en maximisant Eq. (1) en utilisant un algorithme de suivi de chemin. ${\textbf {K}}$ est factorisé en un produit de Kronecker de six matrices plus petites qui assure une complexité de calcul traitable sur les graphes avec des nœuds $N, M \approx 300$32. De plus, la robustesse aux transformations géométriques telles que la rotation et l'échelle est augmentée en trouvant une transformation optimale en même temps que la recherche des correspondances optimales et en appliquant ainsi des contraintes géométriques globales rigides (par exemple, similarité, affine) et non rigides lors de l'optimisation33.

Le résultat est des correspondances de superpixels dans les clusters appariés à grande échelle. En supposant un mouvement rigide par morceaux, nous utilisons RANSAC pour supprimer les valeurs aberrantes des correspondances de superpixels. Pour chaque superpixel s ayant au moins trois voisins appariés, nous ajustons une transformation affine. Nous vérifions uniquement si le superpixel s est une valeur aberrante, auquel cas il est supprimé du traitement ultérieur. Ce processus est répété pour tous les petits clusters et les superpixels appariés au graphique. Nous procédons en faisant correspondre les pixels contenus dans les superpixels correspondants en fonction de leurs descripteurs de caractéristiques. Comme précédemment dans la section "Regroupement perceptif et correspondance des caractéristiques", nous supprimons les correspondances de pixels aberrantes contenues dans les superpixels à l'aide de RANSAC pour trouver une matrice fondamentale localisée.

Le flux creux initial résultant de la mise en correspondance de graphes consiste en un flux calculé à partir de chaque pixel contenu dans les superpixels appariés. La figure 1b montre le résultat du regroupement des descripteurs de caractéristiques pour l'image représentée sur la figure 1a. Les grappes ayant une grande surface sont ensuite divisées en superpixels. Les nœuds du graphe correspondent au centroïde de chaque superpixel, et les arêtes résultent de la triangulation de Delaunay des nœuds, comme expliqué ci-dessus. Les figures 1c, d montrent le résultat de l'appariement graphique des superpixels dans des clusters appariés à grande échelle. Les correspondances sont codées par couleur et les nœuds sans correspondance sont représentés par des cercles jaunes plus petits. Des exemples de nœuds non appariés apparaissent dans la partie gauche de l'image de gauche sur la figure 1c. Les images présentées proviennent du jeu de données de référence MPI-Sintel13.

Les flux clairsemés initiaux combinés (Fig. 1e, f) calculés à partir de l'appariement des caractéristiques clairsemées et de l'appariement des graphes, comme décrit ci-dessus dans les sections "Regroupement perceptif et appariement des caractéristiques" et "Appariement des graphes" respectivement, sont d'abord interpolés puis affinés. Pour l'interpolation, nous appliquons une technique de préservation des bords10. Cela se traduit par un écoulement dense, comme le montre la figure 1g. Dans la dernière étape, nous affinons le flux interpolé en utilisant l'optimisation variationnelle à pleine échelle des flux initiaux, c'est-à-dire sans schéma grossier à fin, avec les mêmes données et termes de lissage que ceux utilisés dans la Réf.10. Le résultat final est présenté sur la figure 1h.

Dans cette section, nous rendons compte de l'évaluation d'HybridFlow sur des ensembles de données de référence et le comparons avec des techniques de flux optique variationnel de pointe. Dans la section "Application : reconstruction 3D à grande échelle", nous présentons deux applications de la technique proposée sur la reconstruction basée sur l'image à grande échelle où la vérité terrain n'est pas disponible. Plus précisément, nous utilisons des images aériennes à grande échelle et des vidéos Full-Motion (FMV) capturées à partir de capteurs aériens et démontrons comment notre technique s'adapte facilement aux images à ultra-haute résolution, contrairement aux alternatives d'apprentissage en profondeur.

Nous évaluons HybridFlow sur les deux ensembles de données de référence largement utilisés pour l'estimation de mouvement :

MPI-Sintel13 - un ensemble de données synthétiques pour l'évaluation du flux optique dérivé du court métrage d'animation 3D open source, Sintel. Il comprend des séquences d'images avec de grands déplacements, un flou de mouvement et un mouvement non rigide.

KITTI-201514—un ensemble de données réelles capturées avec une plateforme de conduite autonome. Il contient des scènes dynamiques de conditions du monde réel et présente de grands déplacements et des objets 3D complexes.

L'évaluation quantitative est effectuée en termes d'erreur de point final moyenne (EPE) pour MPI-Sintel et de pourcentage de valeurs aberrantes de flux optique (FI) pour KITTI-2015.

L'approche proposée a été implémentée par Q. Chen en Python. Toutes les expériences ont été exécutées sur une station de travail avec un processeur Intel i7. Nous extrayons les descripteurs de caractéristiques en utilisant l'approche introduite dans la réf. RAFT25. Le regroupement perceptif à l'aide de superpixels SLIC est effectué à l'aide de la méthode de la réf.29. Nous factorisons les graphes en produits de Kronecker comme présenté dans la réf.32 et effectuons une correspondance de graphe déformable en suivant l'approche de la réf.33. Enfin, nous interpolons les flux initiaux combinés à partir de l'appariement des caractéristiques clairsemées et de l'appariement des graphes à l'aide de l'interpolation préservant les contours et du raffinement variationnel dans EpicFlow10.

Nous avons déterminé empiriquement la taille optimale des superpixels qui a ensuite déterminé le nombre de superpixels $\kappa $ tel que défini dans la section "Regroupement perceptuel et correspondance des caractéristiques". Les figures 4 et 5 montrent un exemple des expériences sur différentes tailles de superpixels. Les lignes correspondent aux tailles de superpixels $|s| = 22 323$ (20 superpixels), $|s| = 2232$ (200 superpixels), $|s| = 1116$ (400 superpixels) et \ (|s| = 223\) (2000 superpixels) respectivement. Les première et deuxième colonnes montrent les correspondances codées par couleur en utilisant uniquement la technique de correspondance de graphique décrite dans la section "Correspondance de graphique". La figure 4a montre un graphique de l'erreur de point final moyenne (EPE) du flux optique final en fonction de la taille de superpixel effectuée sur les séquences d'images d'apprentissage de l'ensemble de données MPI-Sintel. Sur la figure 4b, nous montrons l'augmentation du temps de calcul de l'appariement de graphes en fonction du nombre de nœuds dans les graphes.

(a) Erreur moyenne de point final (EPE) par rapport au nombre de nœuds de graphe par image (\ (1024 \ fois 436 \)). (b) Complexité temporelle moyenne de correspondance de graphe par rapport au nombre de nœuds de graphe. Nous déterminons empiriquement le nombre optimal de superpixels en effectuant une correspondance de graphes en utilisant différentes tailles de superpixels et en calculant l'EPE du flux optique résultant. La taille optimale est $|s| \approx 300$. ( c ) Ablation: correspondance de graphes utilisant des clusters SLIC comme clusters initiaux à grande échelle au lieu de regrouper les descripteurs de caractéristiques. Le regroupement de superpixels donne une grille de pixels presque rigide qui, comme on peut le voir, n'est pas robuste aux occlusions. Le nombre de superpixels est fixé à 200. Les première et deuxième colonnes montrent les correspondances codées par couleur des nœuds de graphe à l'aide d'une correspondance de graphe basée sur un regroupement initial à grande échelle de superpixels (SLIC).

Taille des super pixels. Correspondance de graphiques utilisant différentes tailles de superpixels. Les images correspondent aux exemples de tailles de superpixels $|s| = 22 323$ (20 superpixels, Figures (a,b), $|s| = 2232$ (200 superpixels, Figures (c,d), \ (|s| = 1116\) (5 clusters subdivisés en 80 superpixels, Figures (e,f) et $|s| = 223$ (5 clusters subdivisés en 400 superpixels,Figures (g,h)respectivement. Les figures affichez les correspondances de nœuds de graphique codées par couleur en utilisant uniquement la correspondance de graphique, comme expliqué dans la section "Correspondance de graphique".

Les grappes initiales à grande échelle sont formées en regroupant les descripteurs de caractéristiques des pixels. C'est une partie cruciale du processus, qui augmente la robustesse aux grands déplacements. Comme le montre la figure 4c, l'utilisation de superpixels SLIC sur l'image entière entraîne une grille de pixels rectangulaire presque rigide et, par conséquent, des échecs dans l'appariement de graphes. Cela ressort clairement de la discordance des cercles rouge foncé au milieu de l'image de droite. Nos expériences montrent qu'une grille de pixels irrégulière basée sur des descripteurs de caractéristiques augmente la robustesse en présence de grands déplacements et déformations.

Nous avons comparé les clusters initiaux à grande échelle formés par (a) la triangulation de Delaunay des caractéristiques rootSIFT, (b) les superpixels SLIC, (c) la technique de segmentation d'image basée sur les graphes de Felsenszwalb34 et (d) notre proposition de regroupement des descripteurs de caractéristiques. Comme le montre la figure 6, le regroupement initial à grande échelle à l'aide de SLIC, la technique basée sur les graphes de Felsenszwalb et la triangulation de Delaunay des caractéristiques rootSIFT provoquent des résultats erronés dans l'appariement des graphes, qui s'accumulent dans les échelles plus fines. Cependant, les clusters à grande échelle basés sur des descripteurs de fonctionnalités de clustering offrent des performances cohérentes et robustes. L'erreur de point final moyenne (EPE) pour les images Sintel de la Fig. 6 est respectivement de 2,33, 2,12, 1,95 et 1,08. La dernière colonne montre la vérité terrain et en dessous le flux optique résultant en utilisant chaque technique.

Graph Matching avec différentes méthodes initiales de regroupement à grande échelle sur la paire d'images illustrée à la figure (a). Les clusters initiaux à grande échelle résultent de la segmentation graphique de Felsenszwalb34 (Figure (c), des superpixels SLIC29 (Figure (e)), de la triangulation de Delaunay des caractéristiques rootSIFT (Figure (g)) et du regroupement des descripteurs de caractéristiques (Figure ( i)).La figure (d,f,h,j) montre les résultats du flux optique correspondant à chaque technique ; la vérité terrain illustrée à la figure (b).

Le tableau 1 montre l'erreur de point final moyenne (EPE) sur l'ensemble de données d'image MPI-Sintel "propre" et "final" (effet de rendu réaliste) pour HybridFlow et d'autres techniques de flux optique variationnel de pointe. Nous présentons nos résultats en utilisant trois types de descripteurs par pixel : (i) les descripteurs rootSIFT, nommés HybridFlow(SIFT), (ii) les descripteurs de caractéristiques extraits d'un ResNet35 pré-entraîné formé sur Sintel, nommés HybridFlow(DeepLab), et (iii) descripteurs appris par l'encodeur de fonctionnalité et de contexte comme dans RAFT25, nom comme HybridFlow. HybridFlow surpasse toutes les autres techniques variationnelles de pointe et donne des résultats comparables aux techniques basées sur l'apprentissage en profondeur avec un EPE global moyen de 5,121 dans les ensembles de données « finaux » MPI-Sintel.

Le tableau 1 montre les résultats pour HybridFlow et d'autres méthodes de flux optique non stéréo sur les 200 images de test KITTI-2015. Bien que HybridFlow n'ait pas les meilleures performances globales, il surpasse toutes les techniques variationnelles sur l'ensemble de test non occlus et a des performances comparables pour les autres catégories. Plus précisément, le pourcentage d'arrière-plan, de premier plan et de valeurs aberrantes globales est de 31,06 %, 17,25 % et 29,27 %, respectivement. Les pourcentages de valeurs aberrantes pour les zones non occluses sont de 16,96 %, 14,18 % et 16,54 %.

La correspondance de graphes est robuste aux variations de texture, aux variations d'éclairage et aux déformations. Cependant, des correspondances erronées peuvent être introduites lorsque de grandes zones occluses tombent à l'intérieur du graphique convexe, comme le montre l'exemple de la Fig. 4c. Des discordances dans la mise en correspondance des graphes peuvent conduire à une mauvaise correspondance des superpixels à échelle plus fine et, par conséquent, à des erreurs importantes dans le flux optique. Cela ressort clairement des résultats du tableau 1 pour Sintel et KITTI-2015, où pour les ensembles de tests non occlus, HybridFlow surpasse toutes les méthodes variationnelles de pointe et correspond aux performances des techniques d'apprentissage en profondeur telles que Flux d'étendue.

La motivation de notre travail est la reconstruction 3D à grande échelle à partir d'images aéroportées. En particulier, nous nous concentrons sur la vidéo en mouvement complet (FMV) et l'imagerie aérienne à grande échelle, généralement capturées respectivement par un UAV/hélicoptère et un avion. Les techniques d'apprentissage en profondeur ne sont pas applicables car elles ont une taille d'entrée fixe. Ainsi, une image à très haute résolution doit être réduite à moins de $1{\text{K}} \times 1{\text{K}}$ pour être utilisée comme entrée du réseau. Cette réduction significative de la résolution conduit à un flux optique à faible résolution et à des modèles 3D de très faible fidélité. Plus particulièrement, il n'y a pas d'ensemble de données de vérité terrain pour des scénarios réels pour former les modèles d'apprentissage en profondeur. D'autre part, les méthodes variationnelles de pointe considérées dans ce travail imposent également des restrictions sur la taille de l'image d'entrée. Par exemple, RicFlow et EpicFlow utilisent une structure hiérarchique employée par DeepMatching, qui sur un GPU de 8 Go ne peut gérer que des résolutions $1{\text{K}} \times 1{\text{K}}$. HybridFlow peut gérer des résolutions de taille arbitraire avec une faible empreinte mémoire. Dans cette section, nous présentons les résultats de l'application d'HybridFlow sur le cas d'utilisation de la reconstruction 3D à grande échelle à partir d'images aéroportées. Nous réitérons qu'il n'y a pas de données de vérité terrain pour les modèles d'entraînement dans de tels scénarios, et les résolutions peuvent être nettement supérieures à $1K \times 1K$.

La reconstruction basée sur l'image implique trois composants principaux : (1) la structure à partir du mouvement (SfM) pour l'estimation de la pose de la caméra, (2) l'optimisation de l'ajustement du faisceau et (3) la stéréo multi-vues (MVS). En revanche, nous reformulons la reconstruction comme un processus en une seule étape. L'utilisation d'HybridFlow nous permet de trianguler directement les correspondances denses sans MVS comme étape de post-traitement, réalisant ainsi des reconstructions plus rapides.

Structure de données dynamique en forme de tenseur sur disque. Pour chaque image, nous stockons un tenseur avec des couches contenant des correspondances au niveau des pixels avec les images suivantes basées sur HybridFlow. Les pixels sans correspondance dans la deuxième image sont stockés dans la structure de données de tenseur pour la deuxième image, qui contient des couches avec des correspondances au niveau des pixels avec la troisième image et au-delà. Une fibre est représentée en bleu. Chaque cellule contient la correspondance de ce pixel, c'est-à-dire le coin supérieur droit de toutes les images suivantes. La reconstruction se réduit à trianguler les correspondances contenues dans chaque fibre.

Nous concevons une structure de données spécialisée hors mémoire et sur disque pour stocker les correspondances. Comme le montre la figure 7, à chaque image, nous gardons un tenseur avec des couches contenant des correspondances au niveau des pixels avec les images suivantes basées sur HybridFlow. Les pixels sans correspondance dans la deuxième image sont stockés dans la structure de données de tenseur pour la deuxième image, qui contient des couches avec des correspondances au niveau des pixels avec la troisième image et au-delà. La structure de données peut évoluer dynamiquement vers des ensembles de données de taille arbitraire (sous réserve des limites du disque) et permet une suppression et une validation efficaces des valeurs aberrantes, c'est-à-dire que plusieurs pixels dans la même image ne peuvent pas être mis en correspondance avec le même pixel dans l'image suivante. Une simple recherche sur une fibre du tenseur donne les correspondances pour ce pixel dans toutes les images suivantes. Par conséquent, la reconstruction est réduite à traverser toutes les fibres de chaque tenseur et à trianguler pour obtenir une position 3D.

Nous démontrons l'efficacité d'HybridFlow sur la reconstruction à grande échelle à partir d'images et présentons les résultats sur deux types différents d'ensembles de données : la vidéo en plein mouvement et l'imagerie aérienne à grande échelle. Nous avons suivi le processus en une seule étape décrit ci-dessus en utilisant la structure de données dynamique en forme de tenseur pour le traitement efficace des correspondances calculées par HybridFlow.

La vidéo en mouvement complet (FMV) est généralement capturée par un hélicoptère à un angle aérien oblique afin que les toits et les façades des bâtiments soient visibles sur les images. La densité d'échantillonnage au sol est nettement supérieure à celle d'une image satellite, c'est-à-dire de l'ordre de quelques cm, et peut varier en fonction de la hauteur de vol de l'avion, selon la zone qu'il survole.

Nous avons mené des expériences sur un ensemble de données vidéo en mouvement complet contenant des images prises à partir d'un hélicoptère encerclant une zone contenant quelques bâtiments fictifs. Notre ensemble de données de test contient 71 images avec une résolution $1280 \fois 720$ avec des étalonnages de caméra inconnus ou des informations EXIF. Nous rapportons les résultats en utilisant (i) la reconstruction en une seule étape à l'aide des correspondances HybridFlow, la (ii) la même reconstruction en une seule étape à l'aide des correspondances EpicFlow, (iii) et les techniques SfM incrémentales de pointe Bundler38, VisualSFM39, COLMAP40.

La méthode d'extraction de caractéristiques la plus populaire utilisée dans SfM est peut-être SIFT41. Dans COLMAP40, ils utilisent une version modifiée appelée RootSIFT28 pour extraire et faire correspondre chaque image. La première comparaison porte sur la densité des matchs. La figure 8c montre les correspondances SIFT, la figure 8d les correspondances RootSIFT, la figure 8e les correspondances EpicFlow et la figure 8f les correspondances HybridFlow pour les images d'entrée illustrées sur les figures 8a, b. Les deux derniers affichent les correspondances sous forme de flux optiques codés par couleur pour la clarté de la visualisation, sinon le dessin des correspondances couvrira toute l'image. Le tableau 2 présente le nombre total de matchs par technique. Comme prévu, SIFT et RootSIFT ont le plus petit nombre de correspondances puisqu'ils extraient uniquement les extrema d'échelle-espace. D'autre part, la technique de flux optique dense EpicFlow entraîne un nombre de correspondances huit fois inférieur à celui d'HybridFlow.

La reconstruction peut servir de proxy pour l'exactitude des correspondances dans les cas où la vérité terrain n'est pas disponible. Nous procédons à l'évaluation de la reconstruction en termes d'erreur de reprojection. La figure 9 montre le nuage de points reconstruit de (a) la reconstruction clairsemée (SfM) de COLMAP, (b) la reconstruction dense (MVS) de COLMAP, (c) notre reconstruction en une étape à l'aide de correspondances HybridFlow et (d) notre reconstruction en une étape à l'aide d'EpicFlow allumettes. Les nuages de points reconstruits sont rendus à partir du même point de vue et des mêmes intrinsèques de caméra. L'erreur de reprojection utilisant notre méthode en une seule étape avec HybridFlow atteint le plus grand nombre de points reconstruits dans le temps le plus bas par point, tandis que l'erreur de reprojection est comparable à COLMAP pour près de 60 fois plus de points.

Densité des matchs. La première rangée (a,b) montre un exemple des images d'entrée, © Sa Majesté le Roi du chef du Canada, tel que représenté par le ministre de la Défense nationale, 2022., (c) montre les correspondances SIFT41, (d) montre Les correspondances RootSIFT28, (e,f) montrent les résultats EpicFlow10 et HybridFlow.

La reconstruction sert d'approximation de la précision des correspondances. Nous calculons et comparons les erreurs de reprojection pour les techniques présentées dans le tableau 2. (a) montre la reconstruction éparse (SfM) de COLMAP, (b) montre la reconstruction dense (MVS) de COLMAP40, (c) montre notre reconstruction en une seule étape en utilisant des correspondances denses d'Epicflow10, et (d) montre notre reconstruction en une seule étape avec Hybridflow. HybridFlow produit 60$\times $ correspondances de plus que COLMAP et 47$\times $ correspondances de plus qu'EpicFlow. L'erreur de reprojection est comparable à COLMAP (pour 60$\times $ points de plus) alors que le temps d'exécution est inférieur de moitié.

L'imagerie aérienne à grande échelle est capturée par un avion volant à plus de 10 000 pieds et peut couvrir des zones de 10 à 20 km$^2$. L'avion orbite autour de la zone d'intérêt pendant le vol, et un ensemble de caméras capture et diffuse des données d'image à environ deux images par seconde.

La figure 10a montre un exemple d'imagerie aérienne à grande échelle capturant une zone urbaine du centre-ville. La résolution de $6600 \fois 4400$ est considérée comme moyenne parmi les images aériennes à grande échelle, puisque certaines des plus grandes résolutions peuvent atteindre des tailles allant jusqu'à $14 000 \fois 12 000$. Les techniques d'apprentissage en profondeur ne peuvent être appliquées que (i) en redimensionnant l'image à la taille d'entrée fixe attendue par le réseau de neurones, ou (ii) en tuilant l'image, en calculant les flux par tuile, puis en fusionnant les résultats. Dans le premier cas, la remise à l'échelle réduit la résolution et par conséquent le nombre final de points reconstruits. De plus, les détails essentiels tels que les voitures et les arbres sont complètement supprimés. Dans ce dernier cas, il n'y a pas de mappage un à un entre les tuiles. Par exemple, une tuile peut contenir des zones apparaissant dans deux tuiles différentes ou plus dans la deuxième image. De plus, les techniques de flux optique profond renvoient toujours une correspondance pour chaque pixel. Cela signifie que même si une zone n'est pas présente dans une tuile, celle-ci sera néanmoins associée à une autre zone dans la deuxième image. Pour ces raisons, les techniques d'apprentissage en profondeur ne peuvent pas être appliquées dans ces cas d'utilisation.

(a,b) Sont deux images aériennes consécutives à grande échelle d'une zone urbaine du centre-ville avec une résolution $6600 \times 4400$, © Sa Majesté le Roi du chef du Canada, représenté par le ministre de la Défense nationale, 2022. (c) HybridFlow est la seule méthode variationnelle la plus performante capable de gérer des images haute résolution. Les techniques d'apprentissage en profondeur ne peuvent pas être appliquées en raison de la taille d'entrée fixe des réseaux, comme expliqué dans le texte. (d) Image rééchantillonnée à partir de (a) en utilisant les flux HybridFlow dans (c) pour former (b). (e) Nuage de points reconstruit à l'aide de 320 images.

Les méthodes variationnelles concurrentes telles que RicFlow12, EpicFlow10 ne peuvent pas non plus être appliquées car la structure hiérarchique employée par DeepMatching17, qui sur un GPU de 8 Go ne peut gérer que $1{\text{ K}} \times 1{\text{ K}}$ résolutions . En revanche, HybridFlow est la seule méthode variationnelle la plus performante capable de gérer des images de taille arbitraire telles que des images aériennes à grande échelle. La figure 10a,b montre deux images consécutives capturant une zone urbaine du centre-ville avec une résolution de $6600 \times 4400$. HybridFlow est la seule méthode variationnelle la plus performante capable de gérer des images haute résolution, comme illustré à la Fig. 10c. Les techniques d'apprentissage en profondeur ne peuvent pas être appliquées en raison de la taille d'entrée fixe des réseaux. De même, les méthodes variationnelles de pointe concurrentes ne peuvent pas être appliquées pour cette taille d'images, comme expliqué ci-dessus. La figure 10d montre l'image rééchantillonnée de la figure 10b en utilisant les correspondances HybridFlow de la figure 10c et les pixels appariés de la figure 10a. La figure 10e montre un rendu du nuage de points reconstruit pour la zone urbaine du centre-ville généré à l'aide de 320 images de même taille.

Nous avons abordé le problème du flux optique à grand déplacement et présenté une approche hybride basée sur l'appariement d'entités clairsemées à l'aide de descripteurs d'entités et d'appariement de graphes, appelée HybridFlow. Contrairement à l'état de l'art, il ne nécessite pas de formation, et l'utilisation de la correspondance des caractéristiques clairsemées est robuste et peut évoluer jusqu'à des tailles d'image arbitraires. Cela rend notre technique applicable dans des cas d'utilisation tels que la reconstruction ou le suivi d'objets où la vérité au sol n'est pas disponible et où le traitement doit être effectué en temps interactif. Nous apparions les clusters initiaux à grande échelle sur la base d'un clustering de caractéristiques contextuelles. Nous utilisons l'appariement de graphes pour faire correspondre les groupes perceptuels regroupés à l'aide de superpixels SLIC dans chaque cluster initial à grande échelle, et effectuons l'appariement de pixels sur des clusters plus petits. Sur la base des correspondances d'entités combinées et des correspondances de nœuds de graphe, nous calculons le flux initial qui est interpolé à l'aide d'une interpolation préservant les bords et affiné à l'aide d'un raffinement variationnel. La technique proposée a été évaluée sur deux jeux de données de référence (Sintel, KITTI), et nous l'avons comparée avec les techniques actuelles de flux optique variationnel de pointe. Nous montrons que HybridFlow surpasse toutes les autres méthodes variationnelles de pointe dans les ensembles de tests non occlus. Plus précisément, pour Sintel, HybridFlow a l'EPE global le plus bas, tandis que pour KITTI, il donne des résultats comparables.

Les ensembles de données générés et analysés au cours de la présente étude sont disponibles en ligne : Sintel44 http://sintel.is.tue.mpg.de/, et KITTI45 http://www.cvlibs.net/datasets/kitti/ benchmark datasets.

Une correction à cet article a été publiée : https://doi.org/10.1038/s41598-022-26246-3

Wang, Y. et al. Unos : Estimation unifiée et non supervisée du flux optique et de la profondeur stéréo en regardant des vidéos. Dans Proc. Conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, 8071–8081 (2019).

Porzi, L. et al. Apprentissage du suivi et de la segmentation multi-objets à partir d'annotations automatiques. Dans Proc. CVPR IEEE/CVF, 6846–6855 (2020).

Piergiovanni, A. & Ryoo, MS Flux de représentation pour la reconnaissance d'action. Dans Proc. CVPR IEEE, 9945–9953 (2019).

Yu, J. & Ramamoorthi, R. Apprentissage de la stabilisation vidéo à l'aide du flux optique. Dans Proc. CVPR IEEE/CVF, 8159–8167 (2020).

Gibson, JJ La perception du monde visuel (Houghton Mifflin, 1950).

Google Scholar

Hur, J. & Roth, S. Raffinement résiduel itératif pour l'estimation conjointe du flux optique et de l'occlusion. Dans Proc. CVPR IEEE, 5754–5763 (2019).

Luo, C. et al. Chaque pixel compte++ : Apprentissage conjoint de la géométrie et du mouvement avec une compréhension holistique 3D. IEEE TPAMI 42, 2624–2641 (2019).

Article Google Scholar

Liu, P., Lyu, M., King, I. & Xu, J. Selflow : Apprentissage auto-supervisé du flux optique. Dans Proc. CVPR IEEE, 4571–4580 (2019).

Bar-Haim, A. & Wolf, L. Scopeflow : Cadrage de scène dynamique pour le flux optique. Dans Proc. CVPR IEEE/CVF, 7998–8007 (2020).

Revaud, J., Weinzaepfel, P., Harchaoui, Z. & Schmid, C. Epicflow : Interpolation préservant les contours des correspondances pour le flux optique. Dans Proc. CVPR IEEE, 1164–1172 (2015).

Hu, Y., Song, R. & Li, Y. Patchmatch grossier à fin efficace pour un flux optique à grand déplacement. Dans Proc. Conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, 5704–5712 (2016).

Hu, Y., Li, Y. & Song, R. Interpolation robuste des correspondances pour le flux optique à grand déplacement. Dans Proc. Conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, 481–489 (2017).

Butler, DJ, Wulff, J., Stanley, GB & Black, MJ Un film open source naturaliste pour l'évaluation du flux optique. Dans Conférence européenne sur la vision par ordinateur, 611–625 (Springer, 2012).

Menze, M., Heipke, C. & Geiger, A. Estimation 3D conjointe des véhicules et du flux de scènes. Dans l'atelier ISPRS sur l'analyse de séquences d'images (ISA) (2015).

Horn, BK & Schunck, BG Détermination du flux optique. Dans Techniques et applications de la compréhension des images Vol. 281 (éd. Pearson, JJ) 319–331 (Société internationale d'optique et de photonique, 1981).

Chapitre Google Scholar

Anandan, P. Un cadre de calcul et un algorithme pour la mesure du mouvement visuel. Int. J. Comput. Vis. 2, 283–310 (1989).

Article Google Scholar

Revaud, J., Weinzaepfel, P., Harchaoui, Z. & Schmid, C. Appariement profond : Appariement dense déformable hiérarchique. IJCV 120, 300–323 (2016).

Article MathSciNetGoogle Scholar

Ilg, E. et al. Flownet 2.0 : Evolution de l'estimation de flux optique avec les réseaux profonds. En 2017, Conférence IEEE sur la vision par ordinateur et la reconnaissance de formes (CVPR), 1647–1655. https://doi.org/10.1109/CVPR.2017.179 (2017).

Sun, D., Yang, X., Liu, M. & Kautz, J. Pwc-net : Cnns pour le flux optique utilisant la pyramide, la déformation et le volume des coûts. En 2018 Conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, 8934–8943. https://doi.org/10.1109/CVPR.2018.00931 (2018).

Ranjan, A. & Black, MJ Estimation du flux optique à l'aide d'un réseau pyramidal spatial. En 2017 IEEE CVPR, 2720–2729. https://doi.org/10.1109/CVPR.2017.291 (2017).

Ren, Z. et al. Apprentissage profond non supervisé pour l'estimation de flux optique. Dans la trente et unième conférence AAAI sur l'intelligence artificielle (2017).

Meister, S., Hur, J. & Roth, S. UnFlow : Apprentissage non supervisé du flux optique avec une perte de recensement bidirectionnelle. Dans AAAI (2018).

Yin, Z. & Shi, J. Geonet : Apprentissage non supervisé de la profondeur dense, du flux optique et de la pose de la caméra. Dans Proc. Conférence IEEE sur la vision par ordinateur et la reconnaissance de formes (CVPR) (2018).

Liu, P., Lyu, M., King, I. & Xu, J. Selflow : Apprentissage auto-supervisé du flux optique, 4566-4575. https://doi.org/10.1109/CVPR.2019.00470 (2019).

Teed, Z. & Deng, J. Raft : Transformées récurrentes de champ toutes paires pour le flux optique (résumé étendu). Dans Proc. Trentième Conférence conjointe internationale sur l'intelligence artificielle, IJCAI-21. Sister Conferences Best Papers (eds. Zhou, Z.-H.), 4839–4843 (International Joint Conferences on Artificial Intelligence Organization, 2021).

Jiang, S., Campbell, D., Lu, Y., li, H. & Hartley, R. Apprendre à estimer les mouvements cachés avec l'agrégation globale des mouvements. Dans la Conférence internationale sur la vision par ordinateur (ICCV) (2021).

Dokeroglu, T., Sevinc, E. & Cosar, A. Optimisation des colonies d'abeilles artificielles pour le problème d'affectation quadratique. Appl. Calcul doux. 76, 595–606 (2019).

Article Google Scholar

Arandjelovic, R. & Zisserman, A. Trois choses que tout le monde devrait savoir pour améliorer la récupération d'objets. Dans Conférence sur la vision par ordinateur et la reconnaissance de formes, 2911-2918 (2012).

Achanta, R. et al. Les superpixels slic comparés aux méthodes de superpixels de pointe. IEEE Trans. Modèle Anal. Mach. Renseignement. 34, 2274-2282 (2012).

Article Google Scholar

Cho, M., Lee, J. & Lee, KM Marches aléatoires repondérées pour l'appariement de graphes. Dans Conférence européenne sur la vision par ordinateur, 492-505 (Springer, 2010).

Tian, Y. et al. Sosnet : régularisation de similarité de second ordre pour l'apprentissage de descripteurs locaux. Dans Proc. Conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, 11016–11025 (2019).

Zhou, F. & De la Torre, F. Mise en correspondance de graphes factorisés. En 2012, Conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, 127–134 (IEEE, 2012).

Zhou, F. & De la Torre, F. Appariement de graphes déformables. En 2013, Conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, 2922–2929 (IEEE, 2013).

Felzenszwalb, PF & Huttenlocher, DP Segmentation d'image efficace basée sur des graphes. Int. J. Comput. Vis. 59, 167-181 (2004).

Article MATH Google Scholar

He, K., Zhang, X., Ren, S. & Sun, J. Apprentissage résiduel profond pour la reconnaissance d'images. CoRR. http://arXiv.org/abs/1512.03385 (2015).

Maurer, D., Marniok, N., Goldluecke, B. & Bruhn, A. Patchmatch sensible à la structure à partir du mouvement pour l'estimation adaptative du flux optique. Dans Proc. Conférence européenne sur la vision par ordinateur (ECCV), 565–581 (2018).

Li, Y., Hu, Y., Song, R., Rao, P. & Wang, Y. Patchmatch grossier à fin pour une correspondance dense. IEEE Trans. Circuits Syst. Technologie vidéo. 28, 2233-2245 (2017).

Article Google Scholar

Snavely, N., Seitz, SM & Szeliski, R. Tourisme photographique : exploration des collections de photos en 3D. Dans SIGGRAPH Conference Proceedings, 835–846 (ACM Press, 2006).

Wu, C., Agarwal, S., Curless, B. & Seitz, SM Ajustement du faisceau multicœur. Dans CVPR 2011, 3057–3064 (IEEE, 2011).

Schonberger, JL & Frahm, J.-M. La structure à partir du mouvement revisitée. Dans Proc. Conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, 4104–4113 (2016).

Lowe, G. Sift-the scale invariant feature transform. Int. J. Comput. Vis. 60(2), 2 (2004).

Google Scholar

Furukawa, Y. & Ponce, J. Stéréopse multi-vues précise, dense et robuste (pmvs). Dans IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Vol. 2 (2007).

Schönberger, JL, Zheng, E., Frahm, J.-M. & Pollefeys, M. Sélection de vues Pixelwise pour une stéréo multi-vues non structurée. Dans Conférence européenne sur la vision par ordinateur, 501–518 (Springer, 2016).

Butler, DJ, Wulff, J., Stanley, GB & Black, MJ Un film open source naturaliste pour l'évaluation du flux optique. Dans la Conf. on Computer Vision (ECCV), Partie IV, LNCS 7577 (eds. Fitzgibbon, A. et al.), 611–625 (Springer, 2012).

Menze, M. & Geiger, A. Flux de scènes d'objets pour véhicules autonomes. Dans Conférence sur la vision par ordinateur et la reconnaissance de formes (CVPR) (2015).

Télécharger les références

Cette recherche est basée sur des travaux soutenus par les subventions du Conseil de recherches en sciences naturelles et en génie du Canada Nos. N01670 (Subvention à la découverte) et DNDPJ515556-17 (Recherche et développement en collaboration avec le ministère de la Défense nationale). Un merci spécial à Jonathan Fournier pour son soutien et ses précieuses discussions, ainsi que pour avoir donné accès aux ensembles de données.

Laboratoire de technologies immersives et créatives, Université Concordia, Montréal, QC, Canada

Qiao Chen & Charalambos Volaille

Vous pouvez également rechercher cet auteur dans PubMed Google Scholar

Tous les auteurs ont rédigé et révisé le manuscrit.

Correspondance à Charalambos Poullis.

Les auteurs ne déclarent aucun intérêt concurrent.

Springer Nature reste neutre en ce qui concerne les revendications juridictionnelles dans les cartes publiées et les affiliations institutionnelles.

La version originale en ligne de cet article a été révisée : la version originale de cet article contenait des erreurs dans les légendes des figures 8 et 10. Des informations complètes concernant les corrections apportées peuvent être trouvées dans la correction de cet article.

Libre accès Cet article est sous licence Creative Commons Attribution 4.0 International, qui permet l'utilisation, le partage, l'adaptation, la distribution et la reproduction sur n'importe quel support ou format, à condition que vous accordiez le crédit approprié à l'auteur ou aux auteurs originaux et à la source, fournir un lien vers la licence Creative Commons et indiquer si des modifications ont été apportées. Les images ou tout autre matériel de tiers dans cet article sont inclus dans la licence Creative Commons de l'article, sauf indication contraire dans une ligne de crédit au matériel. Si le matériel n'est pas inclus dans la licence Creative Commons de l'article et que votre utilisation prévue n'est pas autorisée par la réglementation légale ou dépasse l'utilisation autorisée, vous devrez obtenir l'autorisation directement du détenteur des droits d'auteur. Pour voir une copie de cette licence, visitez http://creativecommons.org/licenses/by/4.0/.

Réimpressions et autorisations

Chen, Q., Poullis, C. Estimation du mouvement pour les grands déplacements et déformations. Sci Rep 12, 19721 (2022). https://doi.org/10.1038/s41598-022-21987-7

Télécharger la citation

Reçu : 24 mai 2022

Accepté : 07 octobre 2022

Publié: 16 novembre 2022

DOI : https://doi.org/10.1038/s41598-022-21987-7

Toute personne avec qui vous partagez le lien suivant pourra lire ce contenu :

Désolé, aucun lien partageable n'est actuellement disponible pour cet article.

Fourni par l'initiative de partage de contenu Springer Nature SharedIt

En soumettant un commentaire, vous acceptez de respecter nos conditions d'utilisation et nos directives communautaires. Si vous trouvez quelque chose d'abusif ou qui ne respecte pas nos conditions ou directives, veuillez le signaler comme inapproprié.

Précédent: Le marché des géosynthétiques atteindra une valorisation de 26,89 milliards de dollars américains, à l'échelle mondiale, d'ici 2029 à un TCAC de 10,1% Suivant: Doublure de membrane d'étang en HDPE de 1,5 mm pour le projet de résidus de cuivre...

Envoyer une demande

Envoyer