Convergência instrumental
A convergência instrumental é a tendência hipotética da maioria dos seres suficientemente inteligentes e orientados para objetivos (humanos e não humanos) de perseguir subobjetivos semelhantes (como sobrevivência ou aquisição de recursos), mesmo que seus objetivos finais sejam bastante diferentes.[1] Mais precisamente, seres com agência podem perseguir objetivos instrumentais semelhantes — objetivos que são feitos em busca de algum fim específico, mas não são os próprios objetivos finais — porque isso ajuda a atingir os objetivos finais.
A convergência instrumental postula que um agente inteligente com objetivos aparentemente inofensivos, mas ilimitados, pode agir de maneiras surpreendentemente prejudiciais. Por exemplo, um programa suficientemente inteligente com o único objetivo irrestrito de resolver um problema matemático complexo como a hipótese de Riemann poderia tentar transformar a Terra (e, em princípio, outros corpos celestes) em uma infraestrutura computacional adicional para obter sucesso em seus cálculos.[2]
Os impulsos básicos da IA propostos incluem a função de utilidade ou a integridade do conteúdo do objetivo, a autoproteção, a liberdade de interferência, o autoaperfeiçoamento e a aquisição insaciável de recursos adicionais.[3]
Exemplos hipotéticos
O experimento mental da catástrofe da hipótese de Riemann fornece um exemplo de convergência instrumental. Marvin Minsky, o cofundador do laboratório de IA do MIT, sugeriu que uma inteligência artificial projetada para resolver a hipótese de Riemann poderia decidir assumir todos os recursos da Terra para construir supercomputadores para ajudar a atingir seu objetivo.[2] Se o computador tivesse sido programado para produzir o máximo de clipes de papel possível, ele ainda decidiria tomar todos os recursos da Terra para atingir seu objetivo final.[4] Mesmo que esses dois objetivos finais sejam diferentes, ambos produzem um objetivo instrumental convergente de tomar conta dos recursos da Terra.[5]
Impulsos básicos da IA
Steve Omohundro listou diversos objetivos instrumentais convergentes, incluindo autopreservação ou autoproteção, função de utilidade ou integridade do conteúdo do objetivo, autoaperfeiçoamento e aquisição de recursos. Ele se refere a estes como os "impulsores básicos da IA".[3]
Um "impulso" neste contexto é uma "tendência que estará presente a menos que seja especificamente neutralizada";[3] isso é diferente do termo psicológico "impulso", que denota um estado excitatório produzido por uma perturbação homeostática.[6] A tendência de uma pessoa preencher formulários de imposto de renda todos os anos é um "impulso" no sentido de Omohundro, mas não no sentido psicológico.[7]
Referências
- ↑ «Instrumental Convergence». LessWrong (em inglês). Consultado em 12 de abril de 2023. Arquivado do original em 12 de abril de 2023
- ↑ a b Russell, Stuart J.; Norvig, Peter (2003). «Section 26.3: The Ethics and Risks of Developing Artificial Intelligence». Artificial Intelligence: A Modern Approach. Upper Saddle River, N.J.: Prentice Hall. ISBN 978-0137903955
- ↑ a b c Omohundro, Stephen M. (fevereiro de 2008). «The basic AI drives». Artificial General Intelligence 2008. 171. [S.l.]: IOS Press. pp. 483–492. ISBN 978-1-60750-309-5
- ↑ Bostrom 2014, Chapter 8, p. 123. "An AI, designed to manage production in a factory, is given the final goal of maximizing the manufacturing of paperclips, and proceeds by converting first the Earth and then increasingly large chunks of the observable universe into paperclips."
- ↑ Bostrom 2014, chapter 7
- ↑ Seward, John P. (1956). «Drive, incentive, and reinforcement.». Psychological Review. 63 (3): 195–203. PMID 13323175. doi:10.1037/h0048229
- ↑ Bostrom 2014, footnote 8 to chapter 7