https://www.50a.fr fr glossaire-keyword
EN menu burger

Machine learning

Qu'est ce que le machine learning ?

L'apprentissage machine est une application de l'intelligence artificielle (IA) qui permet aux systèmes d'apprendre automatiquement et de s'améliorer à partir de l'expérience sans être explicitement programmés. L'apprentissage machine se concentre sur le développement de programmes informatiques qui peuvent accéder aux données et les utiliser pour apprendre par eux-mêmes. Le processus d'apprentissage commence par des observations ou des données, telles que des exemples, des expériences directes ou des instructions, afin de rechercher des tendances dans les données et de prendre de meilleures décisions dans l'avenir en fonction des exemples que nous fournissons. L'objectif premier est de permettre aux ordinateurs d'apprendre automatiquement sans intervention ou assistance humaine et d'ajuster les actions en conséquence. Les processus impliqués dans le machine learning sont similaires à ceux du data mining et de la modélisation prédictive.

Les algorithmes de machine learning sont souvent catégorisés comme étant supervisés ou non supervisés. Les algorithmes de machine learning supervisés peuvent appliquer ce qui a été appris dans le passé à de nouvelles données en utilisant des exemples étiquetés pour prédire les événements futurs. A partir de l'analyse d'un ensemble de données connu, l'algorithme d'apprentissage produit une fonction inférée pour faire des prédictions sur les valeurs de sortie. Le système est en mesure de fournir des cibles pour tout nouvel intrant après une formation suffisante. L'algorithme d'apprentissage peut également comparer sa sortie avec la sortie correcte prévue et trouver des erreurs afin de modifier le modèle en conséquence. En revanche, des algorithmes d'apprentissage machine non supervisés sont utilisés lorsque l'information utilisée pour la formation n'est ni classifiée ni étiquetée. L'apprentissage non supervisé étudie comment les systèmes peuvent déduire une fonction pour décrire une structure cachée à partir de données non étiquetées. Le système ne trouve pas le bon résultat, mais il explore les données et peut tirer des inférences des ensembles de données pour décrire des structures cachées à partir de données non étiquetées.

Les algorithmes de machine learning semi-supervisés se situent quelque part entre l'apprentissage supervisé et l'apprentissage non supervisé, puisqu'ils utilisent des données étiquetées et non étiquetées pour la formation - généralement une petite quantité de données étiquetées et une grande quantité de données non étiquetées. Les systèmes qui utilisent cette méthode sont capables d'améliorer considérablement la précision de l'apprentissage. Habituellement, l'apprentissage semi-supervisé est choisi lorsque les données étiquetées acquises nécessitent des ressources compétentes et pertinentes afin de les former et d'en tirer des enseignements. Sinon, l'acquisition de données non étiquetées ne nécessite généralement pas de ressources supplémentaires.

Le renforcement des algorithmes d'apprentissage machine est une méthode d'apprentissage qui interagit avec son environnement en produisant des actions et découvre des erreurs ou des récompenses. La recherche d'essais et d'erreurs et la récompense différée sont les caractéristiques les plus pertinentes de l'apprentissage du renforcement. Cette méthode permet aux machines et aux agents logiciels de déterminer automatiquement le comportement idéal dans un contexte spécifique afin de maximiser ses performances. Une simple rétroaction de récompense est nécessaire pour que l'agent apprenne quelle action est la meilleure ; c'est ce qu'on appelle le signal de renforcement. L'apprentissage machine permet d'analyser des quantités massives de données. Bien qu'il fournisse généralement des résultats plus rapides et plus précis afin d'identifier les opportunités rentables ou les risques dangereux, il peut aussi nécessiter du temps et des ressources supplémentaires pour le former correctement. La combinaison de l'apprentissage machine avec l'intelligence artificielle et les technologies cognitives peut le rendre encore plus efficace dans le traitement de grands volumes d'informations.

Concepts de base de l'apprentissage machine

Il existe de nombreux types différents d'algorithmes de machine learning, dont des centaines sont publiés chaque jour, et ils sont généralement regroupés par style d'apprentissage (c'est-à-dire apprentissage supervisé, apprentissage non supervisé, apprentissage semi-supervisé) ou par similarité de forme ou de fonction (c'est-à-dire classification, régression, arbre décisionnel, regroupement, apprentissage approfondi, etc.) Indépendamment du style ou de la fonction d'apprentissage, toutes les combinaisons d'algorithmes d'apprentissage machine se composent des éléments suivants :

  • Représentation (un ensemble de classificateurs ou la langue qu'un ordinateur comprend)
  • Évaluation (alias objectif/fonction de notation)
  • Optimisation (méthode de recherche ; souvent le classificateur le plus performant, par exemple ; il existe des méthodes d'optimisation disponibles sur le marché et sur mesure)

L'objectif fondamental des algorithmes de machine learning est de généraliser au-delà des échantillons de formation, c'est-à-dire d'interpréter avec succès des données qu'ils n'ont jamais " vues " auparavant.

Comment nous obtenons des machines à apprendre

Il existe différentes approches pour amener les machines à apprendre, de l'utilisation d'arbres de décision de base à la mise en grappes en passant par les couches de réseaux neuronaux artificiels (ce dernier a cédé la place à l'apprentissage approfondi), selon la tâche que vous essayez d'accomplir et le type et la quantité de données dont vous disposez. Cette dynamique se retrouve dans des applications aussi diverses que le diagnostic médical ou l'auto-conduite.

Bien que l'accent soit souvent mis sur le choix du meilleur algorithme de machine learning, les chercheurs ont constaté que certaines des questions les plus intéressantes proviennent d'aucun des algorithmes d'apprentissage disponibles qui ne fonctionnent au pair. La plupart du temps, il s'agit d'un problème avec les données de formation, mais cela se produit également lorsque l'on travaille avec l'apprentissage machine dans de nouveaux domaines. Les recherches effectuées dans le cadre d'applications réelles entraînent souvent des progrès sur le terrain, et les raisons en sont doubles :

  1. Tendance à découvrir les limites et les limites des méthodes existantes
  2. Tendance à découvrir les limites des méthodes existantes. Les chercheurs et les développeurs travaillent avec des experts du domaine et tirent parti du temps et de l'expertise pour améliorer la performance du système.

Parfois, cela se produit aussi par "accident". Nous pourrions considérer des ensembles modèles, ou des combinaisons de nombreux algorithmes de machine learning pour améliorer la précision, comme un exemple. Les équipes en compétition pour le Prix Netflix 2009 ont constaté qu'elles obtenaient leurs meilleurs résultats en combinant leurs apprenants avec ceux des autres équipes, ce qui a permis d'améliorer l'algorithme de recommandation (pour en savoir plus sur les raisons pour lesquelles elles n'ont pas utilisé cet ensemble, consultez le blog Netflix.). Un point important (basé sur des entretiens et des conversations avec des experts dans le domaine), en termes d'application au sein de l'entreprise et ailleurs, est que l'apprentissage machine n'est pas seulement, ou même sur, l'automatisation, un concept souvent mal compris. Si vous pensez de cette façon, vous risquez de rater les précieuses connaissances que les machines peuvent vous apporter et les opportunités qui en découlent (repenser tout un modèle d'entreprise, par exemple, comme cela a été le cas dans des industries comme la fabrication et l'agriculture).

Les machines qui apprennent sont utiles aux humains parce que, avec toute leur puissance de traitement, elles sont capables de mettre en évidence ou de trouver plus rapidement des modèles dans de grandes (ou d'autres) données qui auraient autrement été manquées par les êtres humains. L'apprentissage machine est un outil qui peut être utilisé pour améliorer la capacité des humains à résoudre des problèmes et à faire des déductions éclairées sur un large éventail de problèmes, depuis l'aide au diagnostic des maladies jusqu'à la recherche de solutions au changement climatique mondial.

Défis et limites

Les deux plus grands problèmes historiques (et actuels) de l'apprentissage automatique ont trait à la suradaptation (dans laquelle le modèle présente un biais en faveur des données de formation et ne se généralise pas aux nouvelles données, et/ou à la variance, c'est-à-dire qu'il apprend des choses au hasard lorsqu'il est formé sur de nouvelles données) et à la dimensionnalité (les algorithmes comportant plus de caractéristiques fonctionnent dans des dimensions plus élevées ou multiples, rendant plus difficile de comprendre les données). Dans certains cas, le fait d'avoir accès à un ensemble de données suffisamment important a également été un problème majeur. L'une des erreurs les plus courantes chez les débutants en apprentissage machine est de tester les données de formation avec succès et d'avoir l'illusion du succès ; Domingo (et d'autres) souligne l'importance de garder certaines des données séparées lors du test des modèles, et d'utiliser seulement ces données réservées pour tester un modèle choisi, suivi par un apprentissage sur l'ensemble de données.

Lorsqu'un algorithme de machine learning (c'est-à-dire l'apprenant) ne fonctionne pas, la voie la plus rapide vers le succès consiste souvent à fournir à la machine davantage de données, dont la disponibilité est désormais bien connue comme l'un des principaux facteurs de progrès des algorithmes d'apprentissage machine et profond au cours des dernières années ; cependant, cela peut entraîner des problèmes de scalabilité, dans lesquels nous avons plus de données mais qui laissent encore un certain temps pour apprendre que les données posent un problème. En termes d'objectif, l'apprentissage machine n'est pas une fin ou une solution en soi. De plus, essayer de l'utiliser comme une solution globale, c'est-à-dire "BLANC", n'est pas un exercice utile ; au contraire, il est souvent préférable de s'asseoir à la table avec un problème ou un objectif pour répondre à une question plus spécifique - "BLANC".

Apprentissage approfondi et développements modernes dans les réseaux neuronaux

L'apprentissage profond implique l'étude et la conception d'algorithmes machine pour apprendre une bonne représentation des données à de multiples niveaux d'abstraction (façons d'organiser les systèmes informatiques). La publicité récente de l'apprentissage profond à travers DeepMind, Facebook, et d'autres institutions l'a mis en évidence comme la "prochaine frontière" de l'apprentissage machine. La Conférence internationale sur l'apprentissage machine (CIDM) est largement considérée comme l'une des plus importantes au monde. Cette année, qui a eu lieu en juin à New York, a rassemblé des chercheurs du monde entier qui s'efforcent de relever les défis actuels de l'apprentissage profond.

Apprentissage basé sur la simulation et transférabilité dans le monde réel

Les systèmes de machine learning en profondeur ont fait de grands progrès au cours de la dernière décennie dans des domaines comme la détection et la reconnaissance, la synthèse vocale, la recherche d'information et autres. La recherche se concentre maintenant sur le développement de systèmes d'apprentissage machine efficaces, c'est-à-dire des systèmes d'apprentissage en profondeur qui peuvent apprendre plus efficacement, avec les mêmes performances en moins de temps et avec moins de données, dans des domaines de pointe comme les soins de santé personnalisés, l'apprentissage du renforcement robotique, l'analyse des sentiments, et autres.

Principaux points à retenir dans l'application de l'apprentissage machine

Vous trouverez ci-dessous une sélection des meilleures pratiques et des concepts d'application de l'apprentissage machine que nous avons rassemblés à partir de nos entrevues pour notre série de podcasts et de certaines sources citées à la fin de cet article. Nous espérons que certains de ces principes clarifieront comment le blanchiment d'argent est utilisé et comment éviter certains des pièges auxquels les entreprises et les chercheurs peuvent être vulnérables lorsqu'ils se lancent dans un projet de blanchiment d'argent. Le facteur le plus important dans la réussite des projets d'apprentissage machine est sans doute les caractéristiques utilisées pour décrire les données (qui sont spécifiques au domaine), et le fait de disposer de données adéquates pour former vos modèles en premier lieu.

La plupart du temps, lorsque les algorithmes ne fonctionnent pas bien, c'est à cause d'un problème avec les données machine learning (c.-à-d. quantités insuffisantes de données biaisées, données bruyantes ou caractéristiques insuffisantes décrivant les données pour prendre des décisions). "La simplicité n'implique pas l'exactitude " - il n'y a (selon Domingo) pas de lien donné entre le nombre de paramètres d'un modèle et la tendance à l'ajustement excessif. L'obtention de données expérimentales (par opposition aux données d'observation, sur lesquelles nous n'avons aucun contrôle) devrait être faite si possible (par exemple, des données glanées en envoyant différentes variations d'un courriel à un échantillon aléatoire d'auditoires). Que nous qualifiions ou non les données de causales ou corrélatives, le plus important est de prédire les effets de nos actions. Conservez toujours une partie de votre ensemble de données d'entraînement pour la validation croisée ; vous voulez que le classificateur ou l'algorithme d'apprentissage que vous avez choisi fonctionne bien avec les données récentes.

Nous contacter
Venez à l'agence
31 rue blanche
75009 Paris
contact@50a.fr
01 40 33 00 65
Emplacement 50A sur google maps
Pas le temps ?

Formulaire de contact

Envoyer
newsletter
Abonnez-vous à notre newsletter !