Afin de créer des algorithmes d’apprentissage automatique efficaces pour diverses tâches, il est crucial d’extraire les bonnes caractéristiques des données brutes. Le processus de transformation des observations non traitées en propriétés souhaitées à l’aide de diverses techniques statistiques ou d’apprentissage automatique est connu sous le nom d’ingénierie des caractéristiques. L’ingénierie des fonctionnalités a toujours été une étape critique dans le pipeline d’apprentissage automatique, car elle permet aux algorithmes d’apprentissage automatique d’extraire facilement des informations à partir de fonctionnalités spécifiques par rapport aux données brutes. Bien que l’ingénierie des fonctionnalités soit difficile, plusieurs stratégies ont été développées au fil des ans pour aider les scientifiques des données à mettre en œuvre plus facilement l’ingénierie des fonctionnalités.
Un scientifique indépendant des données de recherche a récemment publié une bibliothèque d’ingénierie de fonctionnalités appelée Headjack AI pour simplifier davantage le processus d’apprentissage automatique. Headjack AI est une bibliothèque d’apprentissage automatique avancée qui fournit un cadre de transfert de connaissances flexible qui transforme les ensembles de données source en fonctions d’ingénierie de fonctionnalités pré-formées pour toute tâche d’apprentissage automatique prédictif. En d’autres termes, il fournit un cadre d’échange de fonctionnalités pour les modèles de données tabulaires dans les modèles d’apprentissage auto-supervisé.
Les données tabulaires sont très différentes des données textuelles car elles ont des propriétés complètement différentes, telles que la longueur des colonnes, etc. Cette observation est importante car elle montre que les données tabulaires ne peuvent pas être écrites de manière cohérente, contrairement aux incorporations qui sont caractéristiques de nombreuses tâches de traitement du langage naturel (TAL). Étant donné que Headjack peut effectuer une conversion de caractéristiques entre deux domaines sans utiliser la même valeur de clé, il se distingue des modèles NLP pré-formés actuels à cet égard, qui ne peuvent effectuer qu’une conversion de domaine unique.
🚨 Lisez notre dernière newsletter AI🚨
La fonctionnalité d’ingénierie des fonctionnalités de Headjack utilise un modèle qui apprend par apprentissage auto-supervisé. Pour chaque ensemble de données, le modèle est formé à l’aide d’un apprentissage auto-supervisé, puis ce modèle peut être utilisé ultérieurement pour d’autres tâches grâce à l’ingénierie des fonctionnalités. Headjack est actuellement utilisé par de nombreux data scientists dont les modèles peuvent être appliqués à différentes tâches. La bibliothèque Headjack est très facile à installer, avec des instructions claires disponibles (ou peut être fait avec pip) sur le site Web de la bibliothèque. La bibliothèque offre deux fonctions principales : la possibilité de porter une fonctionnalité à utiliser à d’autres fins et la possibilité de former un modèle pour l’ingénierie des fonctionnalités.
Contrairement à la culture NLP actuelle, où de grands modèles sont directement appliqués à différents ensembles de données, Headjack vise à libérer la véritable puissance des ensembles de données grâce à l’extraction de caractéristiques. Le créateur de la bibliothèque l’a mis en open source dans l’espoir que davantage de personnes contribueront à la bibliothèque afin de développer des modèles que tout le monde pourra utiliser pour une variété de tâches.
scanner le github, site Et Article de référence. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N’oubliez pas non plus de vous inscrire 14k + ML Sous RedditEt canal de discordeEt Courrieloù nous partageons les dernières nouvelles sur la recherche en IA, des projets d’IA sympas, et plus encore.
Khushboo Gupta est consultant stagiaire chez MarktechPost. Elle poursuit actuellement son baccalauréat en technologie de l’Indian Institute of Technology (IIT), Goa. Elle est passionnée par les domaines de l’apprentissage automatique, du traitement du langage naturel et du développement Web. Vous aimez en apprendre davantage sur le domaine technique en participant à divers défis.