Les entreprises du monde entier cherchent à utiliser plusieurs sources de données pour mettre en œuvre une expérience de recherche unifiée pour leurs employés et leurs clients finaux. Compte tenu du volume important de données qui doivent être analysées et indexées, la vitesse de récupération, l’évolutivité de la solution et les performances de recherche deviennent des facteurs clés à prendre en compte lors du choix d’une solution de recherche intelligente pour l’entreprise. En outre, ces sources de données uniques incluent à la fois des référentiels de contenu structurés et non structurés, y compris différents types de fichiers, ce qui peut entraîner des problèmes de compatibilité.
Amazon Kendra est un service de recherche extrêmement précis et intelligent qui permet aux utilisateurs de rechercher des réponses à leurs questions à partir de vos données non structurées et structurées à l’aide du traitement du langage naturel et d’algorithmes de recherche avancés. Il affiche des réponses spécifiques aux questions, offrant aux utilisateurs une expérience proche de l’interaction avec un expert humain.
Amazon Kendra a publié aujourd’hui sept options supplémentaires de prise en charge des formats de données que vous pouvez utiliser. Cela vous permet de combiner facilement des sources de données existantes telles quelles et d’effectuer une recherche intelligente dans plusieurs référentiels de contenu.
Dans cet article, nous discutons des nouveaux formats de données pris en charge et de la manière de les utiliser.
Nouveaux formats de données pris en charge
Auparavant, Amazon Kendra prenait en charge les documents qui incluaient du texte structuré sous forme de FAQ, ainsi que du texte non structuré sous forme de fichiers HTML, de présentations Microsoft PowerPoint, de documents Microsoft Word, de documents en texte brut et de fichiers PDF.
Avec ce lancement, Amazon Kendra offre désormais la prise en charge de sept formats de données supplémentaires :
- Format de texte enrichi (RTF)
- Notation d’objet JavaScript (JSON)
- Markdown (MD)
- valeurs séparées par des virgules (CSV)
- Microsoft Excel (MS Excel)
- Langage de balisage extensible (XML)
- Transformations extensibles du langage de feuille de style (XSLT)
Les utilisateurs d’Amazon Kendra peuvent ingérer ces documents dans différents formats de données pour leur index des deux manières suivantes :
Vue d’ensemble de la solution
Dans les sections suivantes, nous passons en revue les étapes pour ajouter des documents à partir d’une source de données et effectuer une recherche sur ces documents.
Le schéma suivant montre l’architecture de notre solution.
Pour tester cette solution pour l’un des formats pris en charge, vous devez utiliser vos propres données. Vous pouvez tester en téléchargeant des documents de formats identiques ou différents dans un compartiment S3.
Créer l’index Amazon Kendra
Pour obtenir des instructions sur la création de votre propre index Amazon Kendra, consultez Créer un index.
Vous pouvez ignorer cette étape si vous avez déjà un index à utiliser pour cette démo.
Chargez des documents dans un compartiment S3 et ingérez-les dans l’index à l’aide du connecteur S3
Effectuez les étapes suivantes pour connecter votre bucket S3 à votre index :
- Créez un compartiment S3 pour stocker vos documents.
- Créez un dossier nommé Sample Data.
- Téléchargez les documents que vous souhaitez tester dans le dossier.
- Dans la console Amazon Kendra, accédez à votre index et choisissez Les sources de données.
- Il choisit Ajouter la source de données.
- sous sources de données disponiblesIl choisit S3 Et il a choisi Ajouter un connecteur.
- Entrez un nom pour votre connecteur (par exemple
Demo_S3_connector
) et a choisi le suivant. - Il choisit Parcourir S3 Choisissez le compartiment S3 dans lequel vous avez chargé les documents.
- pour Le rôle de l’IAMcréez un nouveau rôle.
- pour Définir le calendrier d’exécution de la synchronisationIl choisit Exécuter à la demande.
- Il choisit le suivant.
- Sur le Réviser et créer page, sélectionnez Ajouter la source de données.
- Une fois le processus de création terminé, choisissez Synchroniser maintenant” pour transférer des données.
Maintenant que vous avez digéré certains des documents, vous pouvez accéder à la console de recherche intégrée pour tester vos requêtes.
Recherchez vos documents à l’aide de la console de recherche Amazon Kendra
Dans la console Amazon Kendra, choisissez Rechercher du contenu indexé dans le volet de navigation.
Voici des exemples de résultats de recherche pour différents types de documents :
- RTF – Données d’entrée au format RTF chargées dans le compartiment S3 et la source de données synchronisée :
La capture d’écran suivante montre les résultats de la recherche.
- json – Données d’entrée au format JSON chargées dans le bucket S3 et la source de données synchronisée :
La capture d’écran suivante montre les résultats de la recherche.
- réduction de prix – Données d’entrée au format MD chargées dans le bucket S3 et synchronisation de la source de données :
La capture d’écran suivante montre les résultats de la recherche.
- CSV – Données d’entrée CSV téléchargées vers le compartiment S3 et la source de données synchronisées :
La capture d’écran suivante montre les résultats de la recherche.
- Exceller – Données d’entrée au format Excel chargées dans le bucket S3 et synchronisation de la source de données :
La capture d’écran suivante montre les résultats de la recherche.
- XML – Données d’entrée au format XML chargées dans un bucket S3 et synchronisées avec la source de données :
La capture d’écran suivante montre les résultats de la recherche.
- XSLT – Les données d’entrée au format XSLT sont chargées dans un bucket S3 et la source de données est synchronisée :
La capture d’écran suivante montre les résultats de la recherche.
nettoyage
Pour éviter des frais futurs, nettoyez les ressources que vous avez créées dans le cadre de cette solution en procédant comme suit :
- Dans la console Amazon Kendra, choisissez index dans le volet de navigation.
- Choisissez l’index contenant la source de données à supprimer.
- Dans le volet de navigation, choisissez Les sources de données.
- Choisissez la source de données à supprimer, puis choisissez éponger.
Lorsque vous supprimez une source de données, Amazon Kendra supprime toutes les informations stockées sur la source de données. Amazon Kendra supprime toutes les données de document stockées dans l’index et exécute tous les enregistrements et métriques associés à la source de données. La suppression de la source de données ne supprime pas les documents originaux de votre stockage.
- Dans la console Amazon Kendra, choisissez Index dans le volet de navigation.
- Choisissez l’index à supprimer, puis choisissez éponger.
Voir Supprimer un index et une source de données pour plus de détails.
- Dans la console Amazon S3, choisissez seaux dans le volet de navigation.
- Sélectionnez le conteneur que vous souhaitez supprimer, puis choisissez éponger.
- Entrez le nom du conteneur pour confirmer la suppression, puis choisissez Supprimer le compartiment.
Si le conteneur contient des objets, vous recevrez une alerte d’erreur. Videz le conteneur avant de le supprimer en choisissant le lien dans le message d’erreur et en suivant les instructions du panier vide page. Retournez ensuite au dossier Supprimer le compartiment Page et supprimez le bucket.
- Pour vérifier que vous avez supprimé le conteneur, ouvrez le seaux page et entrez le nom du conteneur que vous avez supprimé. Si le conteneur est introuvable, la suppression est réussie.
Voir Supprimer une page conteneur pour plus de détails.
Conclusion
Dans cet article, nous avons discuté des nouveaux formats de données désormais pris en charge par Amazon Kendra. De plus, nous avons expliqué comment utiliser Amazon Kendra pour ingérer ces nouveaux types de documents et effectuer une recherche pour eux dans un compartiment S3. Pour en savoir plus sur les différents formats de données pris en charge, consultez Types de documents.
Nous vous avons donné les bases, mais il existe de nombreuses fonctionnalités supplémentaires que nous n’avons pas couvertes dans cet article, telles que les suivantes :
- Vous pouvez activer le contrôle d’accès basé sur l’utilisateur pour votre index Amazon Kendra et restreindre l’accès aux utilisateurs et aux groupes que vous configurez.
- Vous pouvez définir des champs supplémentaires pour les attributs d’index Amazon Kendra et leur permettre d’apparaître, de rechercher et de s’afficher dans les résultats de recherche.
- Vous pouvez combiner divers connecteurs de source de données tiers tels que Service Now et Salesforce avec la capacité d’enrichissement de document personnalisé (CDE) d’Amazon Kendra pour implémenter une logique de mappage d’attribut supplémentaire et même transformer le contenu personnalisé lors de l’ingestion. Pour une liste complète des connecteurs pris en charge, voir Connecteurs.
Pour en savoir plus sur ces possibilités et bien plus encore, consultez le guide du développeur Amazon Kendra.
À propos des auteurs
Rishabh Yadav AWS Partner Solutions Architect avec une vaste expérience en DevOps et en offres de sécurité sur AWS. Il travaille avec des partenaires de l’ASEAN pour fournir des conseils sur l’adoption du cloud d’entreprise et les révisions de l’architecture, ainsi que sur la création de pratiques AWS en mettant en œuvre un cadre bien conçu. En dehors du travail, il aime passer son temps sur le terrain de sport et les jeux de tir à la première personne.
Kruthi Jayasimha Brut Il est un architecte de solutions partenaires spécialisé dans l’intelligence artificielle et l’apprentissage automatique. Fournit des conseils techniques aux partenaires AWS pour suivre les meilleures pratiques afin de créer des solutions sécurisées, résilientes et hautement disponibles dans le cloud AWS.
Keerthi Kumar Kalloor Il est ingénieur en développement logiciel chez AWS. Il fait partie de l’équipe AWS Kendra depuis deux ans et a travaillé sur de nombreuses fonctionnalités ainsi que sur des clients. Dans ses temps libres, il aime faire des activités de plein air comme la randonnée et des sports comme le volley-ball.