Prise en charge d'un nouveau format de données étendu dans Amazon Kendra

Les entreprises du monde entier cherchent à utiliser plusieurs sources de données pour mettre en œuvre une expérience de recherche unifiée pour leurs employés et leurs clients finaux. Compte tenu du volume important de données qui doivent être analysées et indexées, la vitesse de récupération, l’évolutivité de la solution et les performances de recherche deviennent des facteurs clés à prendre en compte lors du choix d’une solution de recherche intelligente pour l’entreprise. En outre, ces sources de données uniques incluent à la fois des référentiels de contenu structurés et non structurés, y compris différents types de fichiers, ce qui peut entraîner des problèmes de compatibilité.

Amazon Kendra est un service de recherche extrêmement précis et intelligent qui permet aux utilisateurs de rechercher des réponses à leurs questions à partir de vos données non structurées et structurées à l’aide du traitement du langage naturel et d’algorithmes de recherche avancés. Il affiche des réponses spécifiques aux questions, offrant aux utilisateurs une expérience proche de l’interaction avec un expert humain.

Amazon Kendra a publié aujourd’hui sept options supplémentaires de prise en charge des formats de données que vous pouvez utiliser. Cela vous permet de combiner facilement des sources de données existantes telles quelles et d’effectuer une recherche intelligente dans plusieurs référentiels de contenu.

Dans cet article, nous discutons des nouveaux formats de données pris en charge et de la manière de les utiliser.

Nouveaux formats de données pris en charge

Auparavant, Amazon Kendra prenait en charge les documents qui incluaient du texte structuré sous forme de FAQ, ainsi que du texte non structuré sous forme de fichiers HTML, de présentations Microsoft PowerPoint, de documents Microsoft Word, de documents en texte brut et de fichiers PDF.

Avec ce lancement, Amazon Kendra offre désormais la prise en charge de sept formats de données supplémentaires :

Format de texte enrichi (RTF)
Notation d’objet JavaScript (JSON)
Markdown (MD)
valeurs séparées par des virgules (CSV)
Microsoft Excel (MS Excel)
Langage de balisage extensible (XML)
Transformations extensibles du langage de feuille de style (XSLT)

Les utilisateurs d’Amazon Kendra peuvent ingérer ces documents dans différents formats de données pour leur index des deux manières suivantes :

Vue d’ensemble de la solution

Dans les sections suivantes, nous passons en revue les étapes pour ajouter des documents à partir d’une source de données et effectuer une recherche sur ces documents.

Le schéma suivant montre l’architecture de notre solution.

Pour tester cette solution pour l’un des formats pris en charge, vous devez utiliser vos propres données. Vous pouvez tester en téléchargeant des documents de formats identiques ou différents dans un compartiment S3.

Créer l’index Amazon Kendra

Pour obtenir des instructions sur la création de votre propre index Amazon Kendra, consultez Créer un index.

Vous pouvez ignorer cette étape si vous avez déjà un index à utiliser pour cette démo.

Chargez des documents dans un compartiment S3 et ingérez-les dans l’index à l’aide du connecteur S3

Effectuez les étapes suivantes pour connecter votre bucket S3 à votre index :

Créez un compartiment S3 pour stocker vos documents.
Créez un dossier nommé Sample Data.
Téléchargez les documents que vous souhaitez tester dans le dossier.
Dans la console Amazon Kendra, accédez à votre index et choisissez Les sources de données.
Il choisit Ajouter la source de données.
sous sources de données disponiblesIl choisit S3 Et il a choisi Ajouter un connecteur.
Entrez un nom pour votre connecteur (par exemple Demo_S3_connector) et a choisi le suivant.
Il choisit Parcourir S3 Choisissez le compartiment S3 dans lequel vous avez chargé les documents.
pour Le rôle de l’IAMcréez un nouveau rôle.
pour Définir le calendrier d’exécution de la synchronisationIl choisit Exécuter à la demande.
Il choisit le suivant.
Sur le Réviser et créer page, sélectionnez Ajouter la source de données.
Une fois le processus de création terminé, choisissez Synchroniser maintenant” pour transférer des données.

Maintenant que vous avez digéré certains des documents, vous pouvez accéder à la console de recherche intégrée pour tester vos requêtes.

Recherchez vos documents à l’aide de la console de recherche Amazon Kendra

Dans la console Amazon Kendra, choisissez Rechercher du contenu indexé dans le volet de navigation.

Voici des exemples de résultats de recherche pour différents types de documents :

RTF – Données d’entrée au format RTF chargées dans le compartiment S3 et la source de données synchronisée :