Benefices Edge ML

Les avantages Edge-ML expliqués aux...

Data Scientists, Data Engineers et informaticiens

Un outil générique, utile sur tous vos projets

Edge-ML est un outil à caractère générique qui vous sera extrêmement utile quel que soit votre projet de Machine Learning : scoring bancaire, ciblage marketing, classification de textes ou de mails, publicité en ligne, analyse de sentiments, etc. (voir Cas d'usage)

Quels bénéfices allez-vous en retirer ?

  • Go/No go des projets : L’utilisation d’Edge ML dès le début d’un projet de Machine Learning présente plusieurs avantages. Un premier modèle de référence est obtenu très rapidement et à moindre effort (pas de nettoyage des données, pas de recodage des variables catégorielles, pas d’optimisation des paramètres du modèle par grid-search...). Ce modèle de référence est précis et très robuste, il donne une indication précieuse sur la faisabilité du projet. Si Edge-ML ne parvient pas à apprendre un modèle correct, cela signifie que les données ne sont pas suffisamment informatives. Bien souvent, l’étape de Go/No go est réalisée en utilisant un modèle non-optimisé (avec des valeurs par défaut sur ses paramètres). Dans ce cas, il y a un risque de prendre une mauvaise décision en raison d’un problème de sur-apprentissage, ce qui ne sera jamais le cas avec Edge-ML.

  • Réduction de la durée des projets : Il existe deux façons d’utiliser Edge ML : en mode automatique et en complément des algorithmes de Machine Learning habituels.
    En mode automatique, les projets sont réalisés extrêment rapidement grâce à l’approche MODL qui prépare les données automatiquement (discrétisation et groupage univariés) et qui apprend un modèle ensembliste directement, sans optimiser de paramètre de manière empirique. Dans ce cas le modèle appris a une précision souvent comparable à celle d’une forêt aléatoire et a une robustesse hors du commun. Le mode automatique est donc adapté au cas d’application pour lesquels on souhaite garantir la robustesse des modèles et sécuriser la mise en production.
    En complément des approches de Machine Learning habituelles, Edge ML vous apporte de précieuses informations permettant d’accélérer vos projets. Par exemple, Edge ML est capable de filtrer les variables qui ne sont pas du tout corrélées à la cible sans faire d’hypothèses sur les données (ce qui n’est pas le cas d’un test statistique par exemple).
    Edge ML vous permet également d’évaluer les dérives (drift) des variables entre les données d’apprentissage et les données de déploiement. Cette étape est particulièrement importante pour détecter des variables qui ne sont pas stables dans le temps et qui représentent un risque lors de la mise en production du modèle.
    Par ailleurs, Edge ML vous permet de calibrer n’importe quel classifieur binaire, dans le but de corriger les déformations des probabilités estimées en sortie. Enfin, l’agilité du mode automatique vous permet d’imaginer et d’évaluer une multitude de variables dérivées (features engineering) sans contraintes de temps liées à l’optimisation du modèle. En accompagnement des approches habituelles, Edge ML accélère et sécurise votre travail :-)

  • Réduction des ressources matérielles : Edge ML est très économe en ressources matérielles en raison de l'approche mathématique utilisée. MODL est une approche Bayésienne de sélection de modèles qui est à la croisée du Machine Learning et de la Théorie de l’Information (pour plus d’information, voici une série de 4 vidéos sur l'approche MODL). L’approche MODL est régularisée, c’est-à-dire qu’elle évite totalement les problèmes de sur-apprentissage sans avoir à optimiser de paramètres de manière empirique. En d’autre termes, l'algorithme d’apprentissage d’Edge ML n’est exécuté qu’une seule fois : il n’y a pas de grid-search, ce qui réduit considérablement la durée de l’apprentissage. Grace à une implémentation en C++ optimisant l'usage de la mémoire et le temps de calcul, des dizaines de millions d'exemples d'apprentissage peuvent être traités sur un serveur standard (ex : Xeon 8 coeurs + 65 Go de RAM). Edge-ML vous épargne ainsi de lourds investissements en puissance de calcul (ex : clusters Hadoop, HPC...).

  • Modèles robustes et proches de l'optimal : Le compromis biais / variance est une notion très importante du Machine Learning. Selon cette loi, il existe un compromis entre la précision des modèles (faible biais) et leur robustesse (faible variance). Autrement dit, lorsqu’un modèle est extrêmement optimisé en ajustant ses paramètres très finement, le gain de performance observé s’accompagne généralement d’une diminution de fiabilité. Dans ce cas, le modèle risque de dégrader ses performances lorsqu’il est appliqué sur de nouvelles données - surtout si de petites fluctuations apparaissent dans les données (ex : variance, bruit, dérives …).
    L’approche MODL favorise avant tout la robustesse des modèles et fournit des modèles précis - avec une performance généralement comparables aux forêts aléatoires. L’approche MODL est utilisée à toutes les étapes du “pipe” automatisé de Machine Learning d’Edge ML : préparation des variables (discrétisation et groupage univariés); extraction de règles séquentielles; sélection de variables; apprentissage d’un classifieur ensembliste.

  • Modèles interprétables : Les modèles Edge-ML sont très facilement interprétables. Ils fournissent deux classements de variables : i) les importances univariées, qui indiquent à quel point chaque variable explique la cible à elle seule; ii) et les importances multi-variées, qui indiquent à quel point chaque variable explique la cible accompagnées des autres. Ces deux classements permettent de repérer en un coup d'oeil les variables qui bénéficient des interactions avec les autres variables.
    Lors de l’étape de préparation de données, les variables numériques sont discrétisées de manière supervisée et les modalités des variables catégorielles sont regroupées. Ces modèles de discrétisation / groupage peuvent être visualisés et illustrent intuitivement la distribution des classes. Vos interactions avec les Métiers et le Marketing s'en trouvent facilitées :-) Enfin, l’extraction de règles séquentielles fournit des paternes simples et interprétables permettant de caractériser la distribution des classes.