La plate-forme Microsoft Azure Cognitive Speech Services est une suite complète de technologies et de services visant à accélérer l’intégration de la parole dans les applications et à amplifier ainsi la différenciation du marché. Parmi les services disponibles figurent la parole en texte, la synthèse vocale, le service de transcription personnalisé de la voix neurale conversationnelle (CNV), la reconnaissance du locuteur, la traduction vocale, le SDK vocal et le kit de développement de dispositif vocal (DDK).
L’intelligence artificielle dans l’éducation est une technologie émergente qui a le potentiel de révolutionner la façon dont les langues sont enseignées et apprises. L’un des aspects les plus importants de l’apprentissage des langues est la capacité à prononcer les mots avec précision, et c’est là qu’intervient la nouvelle fonctionnalité d’évaluation de la prononciation d’Azure Cognitive Speech Service. Une autre opportunité clé est le développement de voix synthétiques bilingues pour les expériences d’apprentissage des langues avec Custom Neural Voice, en plus de nos capacités de synthèse vocale.
1. Évaluation de la prononciation
La nouvelle fonctionnalité est conçue pour donner aux utilisateurs un retour immédiat sur la précision, la fluidité et l’excitation de leur discours lors de l’apprentissage d’une nouvelle langue. Le service utilise les modèles Azure Neural Text-to-Speech et Transformer, ainsi que la régression ordinale et la structure hiérarchique, pour améliorer la précision de l’évaluation au niveau du mot. Le service est actuellement disponible dans plus de 10 langues, dont l’anglais américain, l’anglais britannique, l’anglais australien, le français, l’espagnol et le chinois, avec des langues supplémentaires en avant-première.
L’évaluation de la prononciation offre plusieurs avantages aux enseignants, aux prestataires de services et aux étudiants :
- Pour les éducateurs, il fournit une rétroaction immédiate, élimine le besoin d’évaluations de langage oral chronophages et fournit des évaluations cohérentes et complètes.
- Pour les fournisseurs de services, il fournit un service de reconnaissance vocale mondial en temps réel de grande capacité et prend en charge la croissance des activités mondiales.
- Pour les étudiants et les apprenants, il offre un moyen pratique de pratiquer et de prendre des notes, une notation fiable pour la comparaison avec la prononciation native et aide à suivre l’ordre textuel exact pour les longues phrases ou les documents complets.
L’évaluation de la prononciation est un outil puissant pour l’apprentissage et l’enseignement des langues. En utilisant des technologies d’intelligence artificielle telles que TTS, Transformer et Ordinal Regression, il fournit une rétroaction instantanée et précise sur l’énonciation de la parole. Avec son large éventail de langues prises en charge et sa capacité à travailler avec des zones à faibles ressources, il offre aux apprenants en langues de tous horizons la possibilité d’améliorer leurs compétences linguistiques. En évaluant la prononciation, les enseignants peuvent offrir une expérience d’apprentissage plus engageante et accessible, les prestataires de services peuvent améliorer la productivité des clients de l’éducation et les étudiants peuvent pratiquer plus facilement n’importe où, n’importe quand.
Lors de l’événement Microsoft Reimagine Education du 9 février 2023, nous avons annoncé plusieurs nouvelles fonctionnalités pour soutenir la réussite des étudiants. L’évaluation de la prononciation de la parole de Reading Coach est utilisée sur les progrès du lecteur immersif et du locuteur dans Microsoft Teams. Il peut être utilisé à l’intérieur et à l’extérieur de la salle de classe pour faire gagner du temps aux enseignants et améliorer les résultats d’apprentissage des élèves en lecture fluide, et est accessible à tous les apprenants.
2. Convertir la parole en texte
Les enseignants et les apprenants en langues mélangeront naturellement la langue maternelle et la langue d’apprentissage au cours d’une conversation d’apprentissage. Azure Speech to text prend en charge l’identification de la langue en temps réel pour les scénarios d’apprentissage de langues multilingues et facilite l’interaction interhumaine avec une meilleure compréhension et un contexte lisible.
Des techniques de modélisation et d’apprentissage par transfert multilingues de pointe ont été utilisées pour développer de nouveaux langages de parole en texte (STT) basés sur des quantités massives de données. Ces modèles ont été formés à la phonétique et aux connaissances linguistiques dans différentes langues et peuvent gérer la dictée et la conversation dans une variété de domaines linguistiques. La sortie inclut la normalisation inversée du texte (ITN), la capitalisation (le cas échéant) et la ponctuation automatique pour améliorer la lisibilité. Les développeurs peuvent facilement intégrer ces langages dans leurs projets à l’aide d’une interface de programmation d’application (API) de streaming en temps réel ou d’une copie par lots. Les avantages d’utiliser une forme uniforme dans toutes les langues seront immédiatement apparents.
3. Voix effrayante prédéfinie et personnalisée (CNV)
Neurovoice (text-to-speech) peut lire le matériel d’apprentissage localement et permettre l’auto-apprentissage à tout moment, n’importe où. Microsoft Azure AI fournit plus de 449 voix neurales pré-générées dans 147 langues et variantes pour permettre aux utilisateurs de bénéficier d’un tutorat d’IA, de capacités de lecture de contenu à haute voix, etc.
Custom Neural Voice (CNV) est une fonctionnalité proposée par Azure AI qui permet aux utilisateurs de créer une voix synthétique unique et personnalisée pour leurs applications. Cette fonctionnalité utilise des échantillons de parole humaine comme données d’entraînement pour générer une voix très naturelle pour la marque ou les personnages. Les entreprises d’éducation utilisent cette technologie pour personnaliser l’apprentissage des langues, en créant des personnages uniques avec des voix distinctes qui correspondent à la culture et aux antécédents de leur public cible. Par exemple, Duolingo a utilisé Custom Neural Voice pour aider à donner vie à neuf nouveaux personnages au sein de la plateforme d’apprentissage des langues, et Pearson l’a utilisé pour améliorer l’évaluation de la prononciation. CNV est basé sur la technologie neuronale de synthèse vocale et permet aux utilisateurs de créer des voix synthétisées riches, multilingues et adaptatives. Un son réaliste et naturel est idéal pour représenter des marques personnelles et des machines pour des interactions conversationnelles avec les utilisateurs.
Inspiration clients
Alors que la technologie continue de progresser, il devient de plus en plus clair que l’avenir de l’éducation réside dans l’intégration de l’intelligence artificielle. Azure AI est à l’avant-garde de cette révolution, fournissant aux entreprises du secteur de l’éducation des outils puissants pour améliorer l’expérience d’apprentissage et stimuler l’engagement et la réussite des étudiants. Nous nous inspirons de cinq clients en éducation :
- Pearson: L’entreprise souhaitait utiliser l’intelligence artificielle pour fournir de meilleurs services aux étudiants et donner aux enseignants des évaluations très précises, en utilisant Azure pour développer des services basés sur l’IA pour les apprenants en langues. Ils ont adopté les nouveaux algorithmes de Microsoft et une fonction sophistiquée d’évaluation de la prononciation, qui fait partie de la fonction de synthèse vocale.
- Centre de service pour les malvoyants de Beijing Hongdandan: L’organisation travaille avec Microsoft et une équipe de bénévoles pour créer du contenu audio IA, qui sera utilisé pour améliorer les ressources destinées aux personnes aveugles ou malvoyantes. Ils ont utilisé Azure Custom Neural Voice, un outil de synthèse vocale qui permet aux utilisateurs de créer des polices vocales personnalisées pour créer du contenu vocal.
- DuolingoVoix neurale personnalisée : la société d’apprentissage des langues utilise la voix neurale personnalisée pour personnaliser l’apprentissage des langues en proposant un ensemble de caractères au sein de la plate-forme. Duolingo a traversé des centaines d’itérations des personnages, visant à refléter la base d’utilisateurs des cultures du monde entier tout en s’alignant visuellement avec le personnage principal de longue date de l’application. Utilisez Custom Neural Voice pour donner vie aux personnages au sein de la plateforme d’apprentissage des langues. Ils ont également utilisé Azure pour donner vie à neuf nouveaux personnages sur la plateforme d’apprentissage des langues.
- BonjourTalk: L’application mobile innovante offre un moyen simple et amusant d’apprendre une nouvelle langue en connectant les utilisateurs avec des locuteurs natifs du monde entier. Avec ses outils linguistiques intuitifs, y compris sa propre fonction d’évaluation de la prononciation et des fonctionnalités communautaires, il permet aux utilisateurs de pratiquer et de s’immerger dans la culture de leur langue cible, d’améliorer leur prononciation et de se faire de nouveaux amis dans le processus.
- Berlitz: La société mondiale de formation au leadership et d’enseignement des langues fournit des produits éducatifs utilisant la reconnaissance vocale et l’évaluation de la parole d’Azure. Il offre aux apprenants la possibilité de pratiquer n’importe où avant de parler à des locuteurs natifs d’anglais, d’allemand, d’espagnol et plus encore.
L’impact futur de l’intelligence artificielle dans l’éducation
L’intégration de l’IA, en particulier des services vocaux, dans le secteur de l’éducation devient de plus en plus importante car elle peut améliorer considérablement l’expérience d’apprentissage et améliorer l’efficacité de l’enseignement. Les services vocaux tels que l’évaluation de la prononciation Azure et la voix neurale personnalisée fournissent la personnalisation, l’automatisation et l’analyse dans les plateformes éducatives, ce qui peut conduire à un meilleur engagement et une meilleure réussite des étudiants. Ces services permettent également aux enseignants de fournir des commentaires en temps réel sur la précision, la fluidité et l’exhaustivité de la parole, ce qui aide les apprenants à améliorer leur prononciation et leur fluidité. Avec la possibilité d’évaluer la prononciation en temps réel, les services de reconnaissance vocale basés sur l’IA peuvent contribuer à rendre l’évaluation linguistique plus attrayante et accessible aux apprenants de tous horizons. De plus, ces services peuvent également aider à personnaliser l’expérience d’apprentissage de chaque élève en fournissant des commentaires et des recommandations personnalisés en fonction des besoins individuels de l’élève. L’intégration de l’IA dans le secteur de l’éducation peut aider les enseignants à autonomiser les élèves et à aider les élèves à atteindre leur plein potentiel.
Démarrer avec Azure Cognitive Services
Découvrez ces fonctionnalités dans Speech Studio en utilisant l’approche sans code. Speech Studio est une suite d’outils basés sur l’interface utilisateur pour intégrer des services d’IA dans vos applications.