Reconnaissance vocale

Partager
" Retour à l'index des glossaires

Speech recognition is a technological advancement that allows computers to interpret and understand human speech, converting it into a format that the ordinateur[2] can understand. This technologie[1] was initially developed in the 1950s by Bell Labs with a device named Audrey, specifically designed for single-speaker digit recognition. Over the years, the technology has developed through notable milestones such as IBM’s demonstration of speech recognition at the 1962 World’s Fair, the proposal of linear predictive coding in 1966, and DARPA’s funding of Speech Understanding Research in 1971. Further advancements and methods like Hidden Markov models and deep learning techniques have significantly improved the accuracy of speech recognition. This technology is now applied in various sectors including in-car systems, education, healthcare, and government intelligence. Its primary function is to translate spoken language into written text, but it has also proven critical in diagnosing and treating speech disorders.

Définitions des termes
1. technologie. La technologie, dérivée des mots grecs signifiant artisanat et connaissance, est un terme général qui désigne les outils, les machines et les systèmes mis au point par l'homme pour résoudre des problèmes ou atteindre des objectifs. Née avec des outils primitifs comme les haches de pierre et la découverte du feu, la technologie a évolué de manière significative tout au long de l'histoire de l'humanité. Elle a joué un rôle déterminant à différentes époques, depuis l'invention de la roue et des systèmes d'irrigation avancés dans les civilisations anciennes jusqu'à la naissance des universités et de la presse à imprimer au cours des périodes médiévale et de la Renaissance. La révolution industrielle du XVIIIe siècle a marqué un tournant important dans la production de masse et l'innovation, donnant naissance aux technologies modernes telles que l'électricité, l'automobile et les plates-formes de communication numérique. Aujourd'hui, la technologie fait partie intégrante de divers aspects de la vie et de la société, stimulant la croissance économique et les changements sociétaux, tout en suscitant des préoccupations en matière de sécurité, de respect de la vie privée et d'incidences sur l'environnement. L'avenir de la technologie devrait apporter encore plus de progrès, avec l'essor de l'intelligence artificielle qui devrait avoir des implications significatives sur le marché du travail.
2. ordinateur. Un ordinateur est un appareil sophistiqué qui manipule des données ou des informations conformément à un ensemble d'instructions, appelées programmes. De par leur conception, les ordinateurs peuvent effectuer un large éventail de tâches, allant des simples calculs arithmétiques au traitement et à l'analyse de données complexes. Ils ont évolué au fil des ans, depuis les outils de comptage primitifs comme le boulier jusqu'aux machines numériques modernes. Le cœur d'un ordinateur est son unité centrale de traitement (UC), qui comprend une unité arithmétique et logique (UAL) pour effectuer les opérations mathématiques et des registres pour stocker les données. Les ordinateurs disposent également d'unités de mémoire, comme la ROM et la RAM, pour stocker les informations. Les autres composants comprennent des dispositifs d'entrée/sortie (E/S) qui permettent d'interagir avec la machine et des circuits intégrés qui améliorent la fonctionnalité de l'ordinateur. Des innovations historiques majeures, comme l'invention du premier ordinateur programmable par Charles Babbage et le développement du premier ordinateur numérique électronique automatique, l'ordinateur Atanasoff-Berry (ABC), ont grandement contribué à leur évolution. Aujourd'hui, les ordinateurs alimentent l'internet, relient des milliards d'utilisateurs dans le monde entier et sont devenus un outil essentiel dans presque tous les secteurs d'activité.

Reconnaissance vocale is an interdisciplinary subfield of computer science et computational linguistics that develops methodologies and technologies that enable the recognition and translation of spoken language into text by computers. It is also known as automatic speech recognition (ASR), computer speech recognition ou speech to text (STT). It incorporates knowledge and research in the computer science, linguistics et computer engineering fields. The reverse process is speech synthesis.

Some speech recognition systems require "training" (also called "enrollment") where an individual speaker reads text or isolated vocabulary into the system. The system analyzes the person's specific voice and uses it to fine-tune the recognition of that person's speech, resulting in increased accuracy. Systems that do not use training are called "speaker-independent" systems. Systems that use training are called "speaker dependent".

Speech recognition applications include voice user interfaces such as voice dialing (e.g. "call home"), call routing (e.g. "I would like to make a collect call"), domotic appliance control, search key words (e.g. find a podcast where particular words were spoken), simple data entry (e.g., entering a credit card number), preparation of structured documents (e.g. a radiology report), determining speaker characteristics, speech-to-text processing (e.g., word processors ou emails), et aircraft (usually termed direct voice input). Automatic pronunciation assessment is used in education such as for spoken language learning.

Le terme voice recognition ou speaker identification refers to identifying the speaker, rather than what they are saying. Recognizing the speaker can simplify the task of translating speech in systems that have been trained on a specific person's voice or it can be used to authenticate or verify the identity of a speaker as part of a security process.

From the technology perspective, speech recognition has a long history with several waves of major innovations. Most recently, the field has benefited from advances in deep learning et big data. The advances are evidenced not only by the surge of academic papers published in the field, but more importantly by the worldwide industry adoption of a variety of deep learning methods in designing and deploying speech recognition systems.

" Retour à l'index des glossaires
fr_FRFR
Retour en haut