Whisper (sistema de reconhecimento de voz)

Partilhar isto
" Voltar ao Índice do Glossário

Whisper is a speech recognition[2] system developed by OpenAI[4]. This system utilizes the power of inteligência artificial[1], specifically deep learning techniques, to analyze and transcribe spoken language. Built on the foundations of statistical methods and hidden Markov models, Whisper has evolved to employ more sophisticated techniques like convolutional neural networks, Seq2seq approaches, and transformer models. Trained on 680,000 hours of multilingual data through a process of semi-supervised learning, this model delivers enhanced performance across a variety of datasets. It not only reduces errors but also serves as a basis for a unified model for both speech and sound recognition. The architecture of Whisper involves segmenting input audio into 30-second chunks, converting them into Mel-frequency cepstrum, processing this data through an encoder, and then generating text captions via a decoder. Special tokens are used for tasks such as phrase-level timestamps. Overall, Whisper is a significant advancement in the realm of speech recognition tecnologia[3].

Definições de termos
1. inteligência artificial.
1 A Inteligência Artificial (IA) refere-se ao domínio da ciência da computação que tem por objetivo criar sistemas capazes de realizar tarefas que normalmente exigiriam a inteligência humana. Estas tarefas incluem o raciocínio, a aprendizagem, o planeamento, a perceção e a compreensão da linguagem. A IA tem origem em diferentes domínios, incluindo a psicologia, a linguística, a filosofia e a neurociência. Este domínio é proeminente no desenvolvimento de modelos de aprendizagem automática e de sistemas de processamento de linguagem natural. Desempenha também um papel importante na criação de assistentes virtuais e de sistemas de computação afectiva. As aplicações da IA estendem-se a vários sectores, incluindo os cuidados de saúde, a indústria, a administração pública e a educação. Apesar dos seus benefícios, a IA também suscita preocupações éticas e sociais, exigindo políticas regulamentares. A IA continua a evoluir com técnicas avançadas, como a aprendizagem profunda e a IA generativa, oferecendo novas possibilidades em vários sectores.
2 A Inteligência Artificial, vulgarmente conhecida por IA, é um domínio da ciência informática dedicado à criação de máquinas inteligentes que executam tarefas que normalmente requerem o intelecto humano. Estas tarefas incluem a resolução de problemas, o reconhecimento do discurso, a compreensão da linguagem natural e a tomada de decisões. A IA divide-se em dois tipos: a IA restrita, que é concebida para executar uma tarefa específica, como o reconhecimento de voz, e a IA geral, que pode executar quaisquer tarefas intelectuais que um ser humano possa fazer. É uma tecnologia em constante evolução que se baseia em vários domínios, incluindo a informática, a matemática, a psicologia, a linguística e a neurociência. Os conceitos fundamentais da IA incluem o raciocínio, a representação do conhecimento, o planeamento, o processamento da linguagem natural e a perceção. A IA tem aplicações abrangentes em vários sectores, desde os cuidados de saúde e os jogos até ao militar e à criatividade, e as suas considerações e desafios éticos são fundamentais para o seu desenvolvimento e implementação.
2. speech recognition. Speech recognition is a technological advancement that allows computers to interpret and understand human speech, converting it into a format that the computer can understand. This technology was initially developed in the 1950s by Bell Labs with a device named Audrey, specifically designed for single-speaker digit recognition. Over the years, the technology has developed through notable milestones such as IBM's demonstration of speech recognition at the 1962 World's Fair, the proposal of linear predictive coding in 1966, and DARPA's funding of Speech Understanding Research in 1971. Further advancements and methods like Hidden Markov models and deep learning techniques have significantly improved the accuracy of speech recognition. This technology is now applied in various sectors including in-car systems, education, healthcare, and government intelligence. Its primary function is to translate spoken language into written text, but it has also proven critical in diagnosing and treating speech disorders.

Whisper is a machine learning model for speech recognition e transcription, created by OpenAI and first released as open-source software in September 2022.

Whisper (sistema de reconhecimento de voz)
Original author(s)OpenAI
Lançamento inicialSeptember 21, 2022
Repositoryhttps://github.com/openai/whisper
Tipo

It is capable of transcribing speech in English and several other languages, and is also capable of translating several non-English languages into English. OpenAI claims that the combination of different training data used in its development has led to improved recognition of accents, background noise and jargon compared to previous approaches.

Whisper is a weakly-supervised deep learning acoustic model, made using an encoder-decoder transformer architecture.

Whisper V2 was released on December 8, 2022. Whisper V3 was released in November 2023, on the OpenAI Dev Day.

" Voltar ao Índice do Glossário
pt_PT_ao90PT
Deslocar para o topo