Alinhamento da IA

Partilhar isto
" Voltar ao Índice do Glossário

AI alignment is a pivotal concept in the development of inteligência artificial[1] systems. It refers to the process of ensuring that an AI system’s objectives are in harmony with human intentions or shared ethical values. This alignment is essential to mitigate the risk of unintended consequences or harmful side effects that may arise from misaligned AI systems. The challenges in AI alignment include specification gaming, reward hacking, and the potential for power-seeking behaviours. AI alignment also intersects with other critical areas in AI safety such as interpretability, robustness, and fairness. Addressing these challenges is crucial in the ongoing research and development of AI systems, especially as we progress towards creating advanced AI or artificial general intelligence (AGI). Ultimately, the goal of AI alignment is to create AI systems that are not only effective and efficient but also safe and ethically sound.

Definições de termos
1. inteligência artificial.
1 A Inteligência Artificial (IA) refere-se ao domínio da ciência da computação que tem por objetivo criar sistemas capazes de realizar tarefas que normalmente exigiriam a inteligência humana. Estas tarefas incluem o raciocínio, a aprendizagem, o planeamento, a perceção e a compreensão da linguagem. A IA tem origem em diferentes domínios, incluindo a psicologia, a linguística, a filosofia e a neurociência. Este domínio é proeminente no desenvolvimento de modelos de aprendizagem automática e de sistemas de processamento de linguagem natural. Desempenha também um papel importante na criação de assistentes virtuais e de sistemas de computação afectiva. As aplicações da IA estendem-se a vários sectores, incluindo os cuidados de saúde, a indústria, a administração pública e a educação. Apesar dos seus benefícios, a IA também suscita preocupações éticas e sociais, exigindo políticas regulamentares. A IA continua a evoluir com técnicas avançadas, como a aprendizagem profunda e a IA generativa, oferecendo novas possibilidades em vários sectores.
2 A Inteligência Artificial, vulgarmente conhecida por IA, é um domínio da ciência informática dedicado à criação de máquinas inteligentes que executam tarefas que normalmente requerem o intelecto humano. Estas tarefas incluem a resolução de problemas, o reconhecimento do discurso, a compreensão da linguagem natural e a tomada de decisões. A IA divide-se em dois tipos: a IA restrita, que é concebida para executar uma tarefa específica, como o reconhecimento de voz, e a IA geral, que pode executar quaisquer tarefas intelectuais que um ser humano possa fazer. É uma tecnologia em constante evolução que se baseia em vários domínios, incluindo a informática, a matemática, a psicologia, a linguística e a neurociência. Os conceitos fundamentais da IA incluem o raciocínio, a representação do conhecimento, o planeamento, o processamento da linguagem natural e a perceção. A IA tem aplicações abrangentes em vários sectores, desde os cuidados de saúde e os jogos até ao militar e à criatividade, e as suas considerações e desafios éticos são fundamentais para o seu desenvolvimento e implementação.
Alinhamento da IA (Wikipédia)

In the field of inteligência artificial (AI), Alinhamento da IA research aims to steer AI systems toward a person's or group's intended goals, preferences, and ethical principles. An AI system is considered aligned if it advances its intended objectives. A misaligned AI system may pursue some objectives, but not the intended ones.

It is often challenging for AI designers to align an AI system due to the difficulty of specifying the full range of desired and undesired behaviors. To aid them, they often use simpler proxy goals, such as gaining human approval. But that approach can create loopholes, overlook necessary constraints, or reward the AI system for merely appearing aligned.

Misaligned AI systems can malfunction and cause harm. AI systems may find loopholes that allow them to accomplish their proxy goals efficiently but in unintended, sometimes harmful, ways (reward hacking). They may also develop unwanted instrumental strategies, such as seeking power or survival because such strategies help them achieve their final given goals. Furthermore, they may develop undesirable emergent goals that may be hard to detect before the system is deployed and encounters new situations and data distributions.

Today, these problems affect existing commercial systems such as language models, robots, autonomous vehicles, and social media recommendation engines. Some AI researchers argue that more capable future systems will be more severely affected, since these problems partially result from the systems being highly capable.

Many of the most-cited AI scientists, including Geoffrey Hinton, Yoshua Bengioe Stuart Russell, argue that AI is approaching human-like (AGI) and superhuman cognitive capabilities (ASI) and could endanger human civilization if misaligned.

AI alignment is a subfield of AI safety, the study of how to build safe AI systems. Other subfields of AI safety include robustness, monitoring, and capability control. Research challenges in alignment include instilling complex values in AI, developing honest AI, scalable oversight, auditing and interpreting AI models, and preventing emergent AI behaviors like power-seeking. Alignment research has connections to interpretability research, (adversarial) robustness, anomaly detection, calibrated uncertainty, formal verification, preference learning, safety-critical engineering, game theory, algorithmic fairnesse social sciences.

" Voltar ao Índice do Glossário
pt_PT_ao90PT
Deslocar para o topo