Convergência instrumental

A convergência instrumental é a tendência hipotética da maioria dos seres suficientemente inteligentes e orientados para objetivos (humanos e não humanos) de perseguir subobjetivos semelhantes (como sobrevivência ou aquisição de recursos), mesmo que seus objetivos finais sejam bastante diferentes.[1] Mais precisamente, seres com agência podem perseguir objetivos instrumentais semelhantes — objetivos que são feitos em busca de algum fim específico, mas não são os próprios objetivos finais — porque isso ajuda a atingir os objetivos finais.

A convergência instrumental postula que um agente inteligente com objetivos aparentemente inofensivos, mas ilimitados, pode agir de maneiras surpreendentemente prejudiciais. Por exemplo, um programa suficientemente inteligente com o único objetivo irrestrito de resolver um problema matemático complexo como a hipótese de Riemann poderia tentar transformar a Terra (e, em princípio, outros corpos celestes) em uma infraestrutura computacional adicional para obter sucesso em seus cálculos.[2]

Os impulsos básicos da IA propostos incluem a função de utilidade ou a integridade do conteúdo do objetivo, a autoproteção, a liberdade de interferência, o autoaperfeiçoamento e a aquisição insaciável de recursos adicionais.[3]

Exemplos hipotéticos

O experimento mental da catástrofe da hipótese de Riemann fornece um exemplo de convergência instrumental. Marvin Minsky, o cofundador do laboratório de IA do MIT, sugeriu que uma inteligência artificial projetada para resolver a hipótese de Riemann poderia decidir assumir todos os recursos da Terra para construir supercomputadores para ajudar a atingir seu objetivo.[2] Se o computador tivesse sido programado para produzir o máximo de clipes de papel possível, ele ainda decidiria tomar todos os recursos da Terra para atingir seu objetivo final.[4] Mesmo que esses dois objetivos finais sejam diferentes, ambos produzem um objetivo instrumental convergente de tomar conta dos recursos da Terra.[5]

Impulsos básicos da IA

Steve Omohundro listou diversos objetivos instrumentais convergentes, incluindo autopreservação ou autoproteção, função de utilidade ou integridade do conteúdo do objetivo, autoaperfeiçoamento e aquisição de recursos. Ele se refere a estes como os "impulsores básicos da IA".[3]

Um "impulso" neste contexto é uma "tendência que estará presente a menos que seja especificamente neutralizada";[3] isso é diferente do termo psicológico "impulso", que denota um estado excitatório produzido por uma perturbação homeostática.[6] A tendência de uma pessoa preencher formulários de imposto de renda todos os anos é um "impulso" no sentido de Omohundro, mas não no sentido psicológico.[7]

Referências

  1. «Instrumental Convergence». LessWrong (em inglês). Consultado em 12 de abril de 2023. Arquivado do original em 12 de abril de 2023 
  2. a b Russell, Stuart J.; Norvig, Peter (2003). «Section 26.3: The Ethics and Risks of Developing Artificial Intelligence». Artificial Intelligence: A Modern Approach. Upper Saddle River, N.J.: Prentice Hall. ISBN 978-0137903955 
  3. a b c Omohundro, Stephen M. (fevereiro de 2008). «The basic AI drives». Artificial General Intelligence 2008. 171. [S.l.]: IOS Press. pp. 483–492. ISBN 978-1-60750-309-5 
  4. Bostrom 2014, Chapter 8, p. 123. "An AI, designed to manage production in a factory, is given the final goal of maximizing the manufacturing of paperclips, and proceeds by converting first the Earth and then increasingly large chunks of the observable universe into paperclips."
  5. Bostrom 2014, chapter 7
  6. Seward, John P. (1956). «Drive, incentive, and reinforcement.». Psychological Review. 63 (3): 195–203. PMID 13323175. doi:10.1037/h0048229 
  7. Bostrom 2014, footnote 8 to chapter 7