Modelo linguístico de grande dimensão

Partilhar isto
" Voltar ao Índice do Glossário

A large language model (LLM) is a type of inteligência artificial[1] system that uses machine learning[3] to understand and generate human-like text. These models, such as the GPT series and BERT, are built on the Transformer architecture, first introduced in 2017. LLMs are trained using various techniques, including tokenization, reinforcement learning, and fine-tuning, to improve their performance. They also incorporate attention mechanisms and context window adjustments. Despite their complexity, the cost of training these models has been decreasing over time, thanks in part to compression techniques like post-training quantization. LLMs are commonly used in tool integration and intelligent agent[2] systems, contributing to decision-making processes and reinforcement learning scenarios. Their effectiveness is measured using metrics like entropy, perplexity, and cross-entropy. Understanding the strengths and weaknesses of these models is crucial for future improvements in AI capabilities.

Definições de termos
1. inteligência artificial.
1 A Inteligência Artificial (IA) refere-se ao domínio da ciência da computação que tem por objetivo criar sistemas capazes de realizar tarefas que normalmente exigiriam a inteligência humana. Estas tarefas incluem o raciocínio, a aprendizagem, o planeamento, a perceção e a compreensão da linguagem. A IA tem origem em diferentes domínios, incluindo a psicologia, a linguística, a filosofia e a neurociência. Este domínio é proeminente no desenvolvimento de modelos de aprendizagem automática e de sistemas de processamento de linguagem natural. Desempenha também um papel importante na criação de assistentes virtuais e de sistemas de computação afectiva. As aplicações da IA estendem-se a vários sectores, incluindo os cuidados de saúde, a indústria, a administração pública e a educação. Apesar dos seus benefícios, a IA também suscita preocupações éticas e sociais, exigindo políticas regulamentares. A IA continua a evoluir com técnicas avançadas, como a aprendizagem profunda e a IA generativa, oferecendo novas possibilidades em vários sectores.
2 A Inteligência Artificial, vulgarmente conhecida por IA, é um domínio da ciência informática dedicado à criação de máquinas inteligentes que executam tarefas que normalmente requerem o intelecto humano. Estas tarefas incluem a resolução de problemas, o reconhecimento do discurso, a compreensão da linguagem natural e a tomada de decisões. A IA divide-se em dois tipos: a IA restrita, que é concebida para executar uma tarefa específica, como o reconhecimento de voz, e a IA geral, que pode executar quaisquer tarefas intelectuais que um ser humano possa fazer. É uma tecnologia em constante evolução que se baseia em vários domínios, incluindo a informática, a matemática, a psicologia, a linguística e a neurociência. Os conceitos fundamentais da IA incluem o raciocínio, a representação do conhecimento, o planeamento, o processamento da linguagem natural e a perceção. A IA tem aplicações abrangentes em vários sectores, desde os cuidados de saúde e os jogos até ao militar e à criatividade, e as suas considerações e desafios éticos são fundamentais para o seu desenvolvimento e implementação.
2. intelligent agent. An intelligent agent is a component of artificial intelligence that perceives its environment through sensors and interacts with it via actuators. These agents are designed to maximize the value of a performance measure based on their past experiences and knowledge. They are not just reactive, but can adapt to changes in their environment and proactively work towards achieving specific goals. They come in various types, including simple reflex agents, model-based reflex agents, goal-based agents, utility-based agents, and learning agents. Intelligent agents are used in diverse applications, such as developing autonomous systems, creating software agents, and conducting cognitive science studies. They offer a systematic way to test and compare different AI programs, and their study also bridges the gap between AI and economics.

A grande modelo linguístico (LLM) is a language model notable for its ability to achieve general-purpose language generation and other natural language processing tasks such as classification. LLMs acquire these abilities by learning statistical relationships from text documents during a computationally intensive self-supervised e semi-supervised training process. LLMs can be used for text generation, a form of generative AI, by taking an input text and repeatedly predicting the next token or word.

LLMs are artificial neural networks. The largest and most capable, as of March 2024, are built with a decoder-only transformer-based architecture while some recent implementations are based on other architectures, such as recurrent neural network variants and Mamba (a state space model).

Up to 2020, fine tuning was the only way a model could be adapted to be able to accomplish specific tasks. Larger sized models, such as GPT-3, however, can be prompt-engineered to achieve similar results. They are thought to acquire knowledge about syntax, semantics and "ontology" inherent in human language corpora, but also inaccuracies and biases present in the corpora.

Some notable LLMs are OpenAI's GPT series of models (e.g., GPT-3.5 e GPT-4, used in ChatGPT e Microsoft Copilot), Google's PaLM e Gémeos (the latter of which is currently used in the chatbot of the same name), xAI's Grok, Meta's LLaMA family of open-source models, Antrópica's Claude models, Mistral AI's open source models, and Databricks' open source DBRX.

" Voltar ao Índice do Glossário
pt_PT_ao90PT
Deslocar para o topo