Nous sommes ravis d’annoncer un nouveau modèle d’intégration beaucoup plus performant, économique et facile à utiliser. Le nouveau modèle text-embedding-ada-002
remplace cinq modèles distincts pour la recherche de texte, la similarité dans le texte et la recherche de code, et surpasse notre modèle précédent, plus performant, Davinci, dans la plupart des tâches, tout en étant 99,8 % moins cher.
Les modèles sont des représentations numériques de concepts convertis en séquences numériques, ce qui permet aux ordinateurs de comprendre plus facilement les relations entre ces concepts. Depuis le lancement initial du point de terminaison OpenAI/embeddings, de nombreuses applications ont intégré des mariages pour personnaliser, recommander et rechercher du contenu.
Vous pouvez interroger le point de terminaison/les intégrations du nouveau formulaire avec quelques lignes de code à l’aide de notre bibliothèque OpenAI Python, comme vous le feriez avec les formulaires précédents :
import openai
response = openai.Embedding.create(
input="porcine pals say",
model="text-embedding-ada-002"
)
Améliorations du modèle
Des performances plus solides. text-embedding-ada-002
Il surpasse tous les modèles d’intégration hérités dans les tâches de recherche de texte, de recherche de code et de similarité de phrases et a des performances comparables dans la classification de texte. Pour chaque catégorie significative, nous évaluons des modèles sur des ensembles de données utilisés dans les mariages anciens.
Consolidation des capacités. Nous avons considérablement simplifié l’interface de point de terminaison /embeddings en intégrant les cinq modèles distincts présentés ci-dessus (text-similarity
Et text-search-query
Et text-search-doc
Et code-search-text
Et code-search-code
) dans un nouveau modèle. Cette représentation unique fonctionne mieux que nos précédents modèles d’inclusion sur une variété de critères de recherche de texte, de similarité de phrases et de recherche de code.
contexte plus long. La longueur du nouveau contexte de formulaire a été multipliée par quatre, de 2048 à 8192, ce qui facilite le travail avec de longs documents.
Taille d’intégration plus petite. Les nouveaux mariages ont des dimensions de seulement 1536, c’est-à-dire un huitième d’une taille davinci-001
Mariages, rendant les nouveaux mariages plus rentables en travaillant avec des bases de données vectorielles.
prix réduit. Nous avons réduit le prix des nouveaux modèles d’inclusion de 90 % par rapport aux anciens modèles de même taille. Le nouveau modèle fonctionne aussi bien ou est similaire aux anciens modèles DaVinci à un prix inférieur de 99,8 %.
Dans l’ensemble, le nouveau modèle d’intégration est un outil plus puissant pour le traitement du langage naturel et les tâches de code. Nous sommes ravis de voir comment nos clients l’utiliseront pour créer des applications plus performantes dans leurs domaines respectifs.
déterminants
le nouveau text-embedding-ada-002
Le modèle n’excelle pas text-similarity-davinci-001
Dans la norme de classification des examens linéaires SentEval. Pour les tâches nécessitant l’entraînement d’une couche linéaire légère sur des vecteurs intégrés pour prédire la classification, nous suggérons de comparer le nouveau modèle à text-similarity-davinci-001
Choisissez le modèle qui offre des performances optimales.
Consultez la section Limites et risques de la documentation de mariage pour connaître les limites générales de nos modèles d’inclusion.
Exemples d’API Embeddings en action
Calendrier IA est un produit de sensibilisation aux ventes qui utilise les mariages pour faire correspondre le bon argumentaire de vente aux bons clients à partir d’un ensemble de données de 340 millions de profils. Cette automatisation repose sur la similarité des profils clients et des argumentaires de vente pour classer les correspondances les plus appropriées, éliminant ainsi 40 à 56 % des ciblages indésirables par rapport à l’ancienne approche.
une idéeInc., une société d’espace de travail en ligne, utilisera les nouvelles incrustations OpenAI pour améliorer la recherche d’idées au-delà des systèmes de correspondance de mots clés existants.