top of page
REDUCTION DE DIMENSION

Sélection de caractéristiques                                                                                                                                                                     

Cette stratégie peut être vue comme un processus de recherche qui permet de ne garder qu'un sous ensemble de caractéristiques jugé comme le plus « pertinent ». Plusieurs méthodes de sélection peuvent être utilisées.

Sélection séquentielle croissante

Le principe de cette méthode est le suivant, un ensemble vide est créé, puis, à chaque itération, la caractéristique la plus pertinente de l'ensemble de caractéristiques est sélectionnée, supprimée de l'ensemble de départ et ajoutée à l'ensemble créé, jusqu'à ce que l'algorithme atteigne la condition d'arrêt. Ainsi, on crée alors un nouvel ensemble ne contenant que les caractéristiques les plus discriminantes. Il existe une variante à cette méthode, la sélection séquentielle arrière qui supprime, à chaque itération, la caractéristique la plus mauvaise de l'ensemble de départ, au sens de la pertinence. Ces deux méthodes de sélection peuvent être améliorées en remplaçant la caractéristique sélectionnée par un sous ensemble de caractéristiques.

Méthode relief

Cette méthode de sélection vise non seulement à éliminer la redondance mais également à définir un critère de pertinence. Pour ce faire, l'algorithme Relief attribue un vecteur de « poids » qu'il initialise pour chaque vecteur d'entrée. Par la suite, il va mesurer la capacité de chaque caractéristique à regrouper les données de même étiquette et discriminer celles qui ont des étiquettes différentes. Ainsi, l'objectif est d'obtenir une estimation du « poids » de la caractéristique en se basant sur la distance de la donnée avec les autres en fonction de l'étiquette de celle ci. Le « poids » d'une caractéristique est alors d'autant plus grand que les données de même étiquette ont des valeurs proches. Ainsi, les caractéristiques ayant le « poids » le plus élevé sont gardées.

Les algorithmes génétiques

Les algorithmes génétiques sont des méthodes de sélection visant à réduire le nombre de caractéristiques en utilisant des techniques qui vont se baser sur l'évolution des espèces afin d'évaluer la pertinence de l'information. En effet, les caractéristiques les plus discriminantes « survivent » alors que celles qui ne le sont pas ne « survivent pas ». Ainsi, la « population » évolue par générations successives, les meilleures caractéristiques sont combinées entre elles et subissent des « mutations ». Ainsi, les algorithmes génétiques s'arrêtent lorsque le procédé tend vers un nombre optimal de caractéristiques.

Projection de caractéristiques                                                                                                                                                                 

La projection des caractéristiques est une méthode de réduction de dimension qui va établir les meilleures combinaisons de caractéristiques originales. Par exemple, l'Analyse en composantes principales est une technique de projection qui vise à transformer un nombre important de caractéristiques en un nombre inférieur de nouvelles caractéristiques en les combinant. C'est ce que l'on va appeler : les composantes principales. Ces composantes principales représentent alors les nouveaux vecteurs de caractéristiques, et renferment la majorité des informations de départ dans des données plus réduites.

 

 

Une fois la dimension de l'ensemble de caractéristiques réduite, vient la dernière étape du processus de reconnaissance de forme, la classification.

bottom of page