Convergência instrumental

A convergência instrumental é a tendência hipotética da maioria dos seres suficientemente inteligentes e orientados para objetivos (humanos e não humanos) de perseguir subobjetivos semelhantes (como sobrevivência ou aquisição de recursos), mesmo que seus objetivos finais sejam bastante diferentes.^[1] Mais precisamente, seres com agência podem perseguir objetivos instrumentais semelhantes — objetivos que são feitos em busca de algum fim específico, mas não são os próprios objetivos finais — porque isso ajuda a atingir os objetivos finais.

A convergência instrumental postula que um agente inteligente com objetivos aparentemente inofensivos, mas ilimitados, pode agir de maneiras surpreendentemente prejudiciais. Por exemplo, um programa suficientemente inteligente com o único objetivo irrestrito de resolver um problema matemático complexo como a hipótese de Riemann poderia tentar transformar a Terra (e, em princípio, outros corpos celestes) em uma infraestrutura computacional adicional para obter sucesso em seus cálculos.^[2]

Os impulsos básicos da IA propostos incluem a função de utilidade ou a integridade do conteúdo do objetivo, a autoproteção, a liberdade de interferência, o autoaperfeiçoamento e a aquisição insaciável de recursos adicionais.^[3]

Exemplos hipotéticos

O experimento mental da catástrofe da hipótese de Riemann fornece um exemplo de convergência instrumental. Marvin Minsky, o cofundador do laboratório de IA do MIT, sugeriu que uma inteligência artificial projetada para resolver a hipótese de Riemann poderia decidir assumir todos os recursos da Terra para construir supercomputadores para ajudar a atingir seu objetivo.^[2] Se o computador tivesse sido programado para produzir o máximo de clipes de papel possível, ele ainda decidiria tomar todos os recursos da Terra para atingir seu objetivo final.^[4] Mesmo que esses dois objetivos finais sejam diferentes, ambos produzem um objetivo instrumental convergente de tomar conta dos recursos da Terra.^[5]

Impulsos básicos da IA

Steve Omohundro listou diversos objetivos instrumentais convergentes, incluindo autopreservação ou autoproteção, função de utilidade ou integridade do conteúdo do objetivo, autoaperfeiçoamento e aquisição de recursos. Ele se refere a estes como os "impulsores básicos da IA".^[3]

Um "impulso" neste contexto é uma "tendência que estará presente a menos que seja especificamente neutralizada";^[3] isso é diferente do termo psicológico "impulso", que denota um estado excitatório produzido por uma perturbação homeostática.^[6] A tendência de uma pessoa preencher formulários de imposto de renda todos os anos é um "impulso" no sentido de Omohundro, mas não no sentido psicológico.^[7]

Referências

↑ «Instrumental Convergence». LessWrong (em inglês). Consultado em 12 de abril de 2023. Arquivado do original em 12 de abril de 2023
↑ ^a ^b Russell, Stuart J.; Norvig, Peter (2003). «Section 26.3: The Ethics and Risks of Developing Artificial Intelligence». Artificial Intelligence: A Modern Approach. Upper Saddle River, N.J.: Prentice Hall. ISBN 978-0137903955
↑ ^a ^b ^c Omohundro, Stephen M. (fevereiro de 2008). «The basic AI drives». Artificial General Intelligence 2008. 171. [S.l.]: IOS Press. pp. 483–492. ISBN 978-1-60750-309-5
↑ Bostrom 2014, Chapter 8, p. 123. "An AI, designed to manage production in a factory, is given the final goal of maximizing the manufacturing of paperclips, and proceeds by converting first the Earth and then increasingly large chunks of the observable universe into paperclips."
↑ Bostrom 2014, chapter 7
↑ Seward, John P. (1956). «Drive, incentive, and reinforcement.». Psychological Review. 63 (3): 195–203. PMID 13323175. doi:10.1037/h0048229
↑ Bostrom 2014, footnote 8 to chapter 7

[1] «Instrumental Convergence». LessWrong (em inglês). Consultado em 12 de abril de 2023. Arquivado do original em 12 de abril de 2023

[aama-2] Russell, Stuart J.; Norvig, Peter (2003). «Section 26.3: The Ethics and Risks of Developing Artificial Intelligence». Artificial Intelligence: A Modern Approach. Upper Saddle River, N.J.: Prentice Hall. ISBN 978-0137903955

[:1-3] Omohundro, Stephen M. (fevereiro de 2008). «The basic AI drives». Artificial General Intelligence 2008. 171. [S.l.]: IOS Press. pp. 483–492. ISBN 978-1-60750-309-5

[4] Bostrom 2014, Chapter 8, p. 123. "An AI, designed to manage production in a factory, is given the final goal of maximizing the manufacturing of paperclips, and proceeds by converting first the Earth and then increasingly large chunks of the observable universe into paperclips."

[bostrom_chapter_7-5] Bostrom 2014, chapter 7

[6] Seward, John P. (1956). «Drive, incentive, and reinforcement.». Psychological Review. 63 (3): 195–203. PMID 13323175. doi:10.1037/h0048229

[7] Bostrom 2014, footnote 8 to chapter 7

[1]

[2]

[3]

[4]

[5]

[6]

[7]