Désigné en anglais « decision tree », l’arbre de décision est un algorithme de machine learning qui est facile à interpréter. Il fait partie de la catégorie des algorithmes supervisés. On a recours à un arbre de décision pour prédire une valeur ou une catégorie.
Qu’est-ce qu’un arbre de décision ?
Un arbre de décision est un schéma qui représente les éventuels résultats d’une série de choix interconnectés. Une personne ou une organisation peut s’en servir pour faire une évaluation de différentes actions possibles selon leur coût, leur probabilité ainsi que leurs bénéfices. Son utilisation est envisageable pour alimenter une discussion informelle ou mettre en avant un algorithme capable de déterminer le meilleur choix sur une base mathématique.
Généralement, l’arbre de décision commence par un nœud à partir duquel découlent de nombreux résultats possibles. Et chacun de ces résultats conduit à d’autres nœuds desquels sont issues d’autres possibilités. Au fur et à mesure, on obtient un schéma dont la forme fait penser à un arbre.
En vous informant sur le fonctionnement du machine learning, vous comprendrez sûrement pourquoi cette technologie est de plus en plus utilisée par les entreprises. Vous aussi, vous pourrez en profiter en sollicitant simplement des spécialistes pour l’installation de votre système. Et il est possible qu’un algorithme d’arbre de décision soit le mieux indiqué pour votre projet.
Notez qu’il est possible de dessiner un arbre de décision à main levée, sur du papier ou sur un tableau blanc. Mais il vaut mieux opter pour un logiciel spécialisé afin de vous simplifier la tâche.
Il existe trois types de nœuds différents, à savoir les nœuds de hasard, les nœuds de décision et les nœuds terminaux. Représenté par un cercle, un nœud de hasard présente les probabilités de certains résultats. Par contre, le nœud de décision, qui est représenté par un carré, est l’illustration d’une décision à prendre. Quant au nœud terminal, il s’agit du résultat final d’un chemin de décision.
Fonctionnement d’un arbre de décision
L’arbre de décision fonctionne à la fois pour des variables discrètes et continues. Cet algorithme divise l’ensemble des données en sous-ensembles sur la base de l’attribut le but significatif de l’ensemble des données.
Notez que dans l’arbre de décision, est opérée une division de l’ensemble des données en régions homogènes et sans chevauchement. L’algorithme suit une approche descendante puisque la région supérieure met en avant toutes les observations à un seul endroit. Celui-ci est divisé en deux ou plusieurs branches, lesquelles se divisent davantage. Ce mode de fonctionnement est considéré comme une « approche gourmande », car c’est seulement le nœud principal qui est pris en compte, et non les futurs nœuds. L’algorithme d’arbre de décision continue de fonctionner jusqu’à l’atteinte de l’arrêt d’un critère, comme le nombre minimum d’observations.
Notez qu’une fois que l’arbre de décision est construit, plusieurs nœuds peuvent représenter des valeurs considérées comme aberrantes ou bruyantes. Grâce à la méthode d’élagage des arbres, il est possible de supprimer les données indésirables, ce qui va favoriser l’amélioration de la précision du modèle de classification.
Exemples d’algorithmes d’arbre de décision
On trouve de nombreux algorithmes automatiques permettant de construire les arbres de décision. L’ID3 (Iterative Dichotomiser 3) en est un exemple. Il a été mis au point en 1986 par Ross Quinlan. Son application est seulement possible sur les caractéristiques nominales. On y a recours pour le classement.
Il y a aussi l’algorithme C4.5 qui est une extension de l’ID3. On peut l’appliquer sur tous les types de caractéristiques. On l’utilise aussi pour le classement.
Il existe également le C5.0, qui est une extension commerciale de C4.5, et le CART (Classification and Regression Trees).
Avantages et inconvénients de l’arbre de décision
L’utilisation de l’arbre de décision est avantageuse à plusieurs niveaux. D’abord, sa compréhension est assez facile. Ensuite, la plupart des algorithmes d’arbre de décision sont intuitifs, ce qui rend leur utilisation agréable. Aussi, le temps d’exécution est raisonnable.
Notez également que l’arbre de décision peut être utile avec ou sans données concrètes. Et quelle que soit la nature de ces données, il n’est pas nécessaire de passer par une grande préparation pour les exploiter idéalement.
En outre, de nouvelles options peuvent être ajoutées à un arbre qui existe déjà. Et après, il est facile de sélectionner l’option la plus appropriée parmi tant d’autres. En plus, il est aisé d’y associer d’autres outils de prise de décision à l’algorithme.
Même si leurs avantages sont nombreux, les arbres de décision ont aussi quelques petits inconvénients. Le plus évident est le fait qu’ils peuvent devenir extrêmement complexes. Dans un tel cas, l’alternative la plus intéressante est un diagramme d’influence qui est plus compact. Celui-ci s’appuie plus sur les décisions, les données et les objectifs critiques.