Rhodes JS, Aumon A, Morin S, Girard M, Larochelle C, Lahav B, Brunet-Ratnasingham E, Zhang W, Cutler A, Zhou A, Kaufmann DE, Zandee S, Prat A, Wolf G, Moon KR. Gaining Biological Insights through Supervised Data Visualization. medRxiv. Le 23 novembre 2023; doi : https://doi.org/10.1101/2023.11.22.568384.
Les résultats ou les conclusions contenus dans l’étude ne reflètent pas nécessairement les points de vue de tous les membres du GTIC.
Dans une étude financée par le GTIC, parue en prépublication et qui n’a donc pas encore été révisée par un comité de lecture, des chercheurs ont proposé une méthode de visualisation des données du nom de RF-PHATE, qui a pu produire des visualisations de basse dimension et faire ressortir les relations entre les données tout en ignorant les facteurs externes. Ils ont démontré les capacités de leur algorithme par des études de cas des cellules pulmonaires exposées aux émissions diesel, de la sclérose en plaques (SP) et de la COVID-19. Cette étude était dirigée par le Pr Jake S. Rhodes de l’Université Brigham Young et le Pr Adrien Aumon de l’Institut québécois d’intelligence artificielle et de l’Université de Montréal, en collaboration avec le Dr Daniel Kaufmann du Centre hospitalier de l’Université de Montréal.
Le RF-PHATE fonctionne par l’entraînement d’une forêt d’arbres décisionnels randomisés, un type d’outil d’apprentissage machine qui construit une multitude d’arbres décisionnels pour découvrir les liens entre les caractéristiques des données afin de prédire les étiquettes de données. Cette information est ensuite extraite pour créer des visualisations qui reflètent la relation entre les points (lorsqu’on s’attarde à des caractéristiques particulières) tout en ignorant les caractéristiques non pertinentes.
Faits saillants
Au moyen du RF-PHATE, les chercheurs ont démontré les avantages de l’algorithme dans trois études de cas :
- L’aptitude à déterminer des sous-groupes de patients atteints de SP à l’aide des ensembles de données longitudinales tout en préservant la structure originale
- La capacité de créer des visualisations éloquentes à l’aide de données intrinsèquement bruitées grâce à la détermination des effets des anti-oxydants sur les cellules pulmonaires dans le contexte de données spectrales
- La capacité d’enrichir l’interprétabilité des données de manière hiérarchique, comme le démontre la possibilité de faire correspondre les profils d’anticorps connus avec des étiquettes de résultats cliniques établis chez les patients atteints de la COVID-19
Avantages clés du RF-PHASE
- Combine la puissance prédictive des forêts aléatoires avec de solides méthodes de visualisation.
- Peut être mis à l’échelle pour de petits et de gros ensembIes de données et fonctionne bien à la fois pour des étiquettes contiguës et catégoriques.
- Résiste au bruit, en partie grâce à la capacité des forêts aléatoires à déterminer l’importance des caractéristiques.
- Il s’agit d’une méthode supervisée. Elle peut intégrer de l’information auxiliaire, telle que des métadonnées ou des annotations provenant d’experts, pour donner un point de vue précieux sur les liens de l’ensemble de données (par rapport aux méthodes non supervisées, qui préservent la structure dominante des données et peuvent inclure des caractéristiques non pertinentes).