자연어는 코딩, 계획 및 로봇 공학에서 LLM 성능을 향상시킵니다
페이지 정보
작성자 빅데이터뉴스 작성일 24-05-20 15:02 조회 12회 댓글 0건본문
자연어는 코딩, 계획 및 로봇 공학에서 LLM 성능을 향상시킵니다
세 가지 신경 기호 방법은 언어 모델이 자연어 내에서 더 나은 추상화를 찾은 다음 이러한 표현을 사용하여 복잡한 작업을 실행하는 데 도움이 됩니다.
대형 언어 모델(LLM)은 프로그래밍 및 로봇 공학 작업에 점점 더 유용해지고 있지만, 더 복잡한 추론 문제의 경우 이러한 시스템과 인간 사이의 격차가 크게 나타나고 있습니다. 인간처럼 새로운 개념을 학습할 수 없으면 이러한 시스템은 좋은 추상화(본질적으로 덜 중요한 세부 사항을 건너뛰는 복잡한 개념의 고수준 표현)를 형성하지 못하므로 더 정교한 작업을 요청 받으면 스퍼터링됩니다.
운 좋게도, MIT 컴퓨터 과학 및 인공지능 연구소 (CSAIL) 연구원들은 자연어 내에서 추상화의 보고를 발견했습니다. 이번 달에 국제 학습 표현 회의에서 발표될 세 가지 논문에서, 그 그룹은 우리의 일상 단어들이 어떻게 언어 모델에 대한 풍부한 맥락의 원천인지를 보여주고, 그들이 코드 합성, 인공지능 계획, 그리고 로봇 네비게이션과 조작을 위해 더 나은 가장 중요한 표현을 만들도록 돕습니다.
세 개의 개별 프레임워크는 주어진 작업을 위해 추상화 라이브러리를 구축합니다. LILO(언어 관찰을 통한 라이브러리 유도)는 코드를 합성, 압축 및 문서화할 수 있습니다. 에이다(액션 도메인 획득)는 인공지능 에이전트를 위한 순차적 의사 결정을 탐색하고, LGA(언어 유도 추상화)는 로봇이 환경을 더 잘 이해하여 보다 실현 가능한 계획을 개발할 수 있도록 도와줍니다. 각 시스템은 인간과 같은 신경망과 프로그램과 같은 논리적 구성 요소를 혼합한 AI 유형인 신경 기호 방법입니다.
LILO: 부호화하는 신경 기호 프레임워크
대규모 언어 모델은 소규모 코딩 작업에 대한 해결책을 신속하게 작성하는 데 사용될 수 있지만 인간 소프트웨어 엔지니어가 작성한 것처럼 전체 소프트웨어 라이브러리를 설계할 수는 없습니다. 소프트웨어 개발 능력을 더욱 발전시키기 위해 AI 모델은 코드를 간결하고 판독 가능하며 재사용 가능한 프로그램의 라이브러리에 리팩터링(리팩터링)해야 합니다.
이전에 개발된 MIT 주도의 스티치 알고리즘과 같은 리팩토링 도구는 추상화를 자동으로 식별할 수 있으므로, 디즈니 영화 "릴로 & 스티치"에 동의하여 CSAIL 연구원들은 이러한 알고리즘 리팩토링 접근 방식을 LLM과 결합했습니다. 그들의 신경 기호 방법 LILO는 표준 LLM을 사용하여 코드를 작성한 다음 스티치와 쌍을 이루어 라이브러리에 포괄적으로 문서화된 추상화를 찾습니다.
자연어에 대한 LILO의 독특한 강조는 그 시스템이 일련의 코드에서 모든 모음을 식별하고 제거하고 눈송이를 그리는 것과 같이 인간과 같은 상식적인 지식을 필요로 하는 일들을 할 수 있게 합니다. 두 경우 모두, CSAIL 시스템은 드림코더라고 불리는 MIT의 이전 도서관 학습 알고리즘뿐만 아니라 독립형 LLM을 능가하여 프롬프트 내에서 단어에 대한 더 깊은 이해를 구축할 수 있는 능력을 나타냅니다. 이러한 고무적인 결과는 LILO가 엑셀 스프레드시트와 같은 문서를 조작하기 위한 프로그램을 작성하고, AI가 시각적인 것에 대한 질문에 답하는 것을 돕고, 2D 그래픽을 그리는 것과 같은 것들을 어떻게 도울 수 있는지를 가리킵니다.
"언어 모델들은 자연어로 명명된 기능들로 작업하는 것을 선호합니다"라고 CSAIL의 계열사이자 연구의 주요 필자인 MIT 전기공학과 컴퓨터 공학 박사과정 학생인 Gabe Grand SM '23은 말합니다. "우리의 작업은 언어 모델들을 위한 더 간단한 추상화를 만들고 각각의 추상화에 자연어 이름과 문서를 할당하여 프로그래머들을 위한 더 해석 가능한 코드와 향상된 시스템 성능으로 이어집니다."
프로그래밍 작업에 대한 프롬프트가 나타나면, LILO는 먼저 LLM을 사용하여 학습된 데이터를 기반으로 솔루션을 빠르게 제안한 다음, 시스템은 외부 솔루션을 보다 철저하게 검색합니다. 다음으로, 스티치는 코드 내의 일반적인 구조를 효율적으로 식별하고 유용한 추상화를 끌어냅니다. 그런 다음, 이것들은 LILO에 의해 자동으로 명명되고 문서화되어 시스템이 더 복잡한 작업을 해결하는 데 사용할 수 있는 단순화된 프로그램이 됩니다.
MIT 프레임워크는 아이들에게 프로그래밍을 가르치기 위해 1970년대에 MIT에서 개발된 언어인 로고(Logo)와 같은 도메인별 프로그래밍 언어로 프로그램을 작성합니다. 파이썬(Python)과 같은 더 일반적인 프로그래밍 언어를 처리하기 위해 자동화된 리팩토링 알고리즘을 확장하는 것이 향후 연구의 초점이 될 것입니다. 그럼에도 불구하고, 그들의 작업은 언어 모델이 점점 더 정교한 코딩 활동을 어떻게 촉진할 수 있는지에 대한 한 걸음의 진전을 나타냅니다.
에이다: 자연어 안내 AI 과제 기획
프로그래밍과 마찬가지로 가정과 명령 기반 비디오 게임에서 다단계 작업을 자동화하는 AI 모델은 추상화가 부족합니다. 아침 식사를 요리한다고 상상하고 룸메이트에게 뜨거운 계란을 식탁에 가져오라고 요청하면 주방에서 요리하는 배경 지식을 직관적으로 일련의 행동으로 추상화합니다. 대조적으로 유사한 정보에 대해 훈련된 LLM은 여전히 유연한 계획을 수립하는 데 필요한 것이 무엇인지 추론하는 데 어려움을 겪을 것입니다.
많은 사람들이 세계 최초의 프로그래머로 여기는 유명한 수학자 아다 러브레이스의 이름을 딴 CSAIL이 이끄는 "아다" 프레임워크는 가상 주방 집안일과 게임에 유용한 계획 라이브러리를 개발함으로써 이 문제에 진전을 이룹니다. 이 방법은 잠재적인 작업과 자연어 설명에 대해 훈련한 다음 언어 모델이 이 데이터 세트에서 작업 추상화를 제안합니다. 인간 운영자는 최상의 계획을 점수화하고 필터링하여 가능한 최상의 작업이 다양한 작업에 대한 계층적 계획으로 구현될 수 있도록 합니다.
"전통적으로, 대형 언어 모델은 추상화에 대한 추론과 같은 문제 때문에 더 복잡한 작업에 어려움을 겪어 왔습니다," 라고 MIT 뇌 및 인지 과학 대학원생이자 CSAIL 계열사이자 LILO의 공동 저자인 Ada의 수석 연구원 Lio Wong은 말합니다.
"그러나 우리는 소프트웨어 엔지니어와 로봇 공학자가 가상 환경에서의 의사 결정과 같은 어려운 문제를 해결하기 위해 사용하는 도구를 LLM과 결합할 수 있습니다."
연구원들이 널리 사용되는 대규모 언어 모델인 GPT-4를 에이다에 통합했을 때, 그 시스템은 인공지능 의사 결정 기준선인 "정책으로 코드화"보다 주방 시뮬레이터와 미니 마인크래프트에서 더 많은 작업을 완료했습니다. 에이다는 자연어로 숨겨진 배경 정보를 사용하여 찬 와인을 캐비닛에 넣고 침대를 만드는 방법을 이해했습니다. 그 결과는 각각 59%와 89%의 놀라운 작업 정확도 향상을 나타냈습니다.
이 성공으로, 연구원들은 에이다가 다른 가정 일을 돕고 부엌에 있는 여러 로봇들을 도울 수 있기를 희망하면서, 그들의 일을 실제 가정에 일반화하기를 희망합니다. 현재, 그것의 주요 한계는 그것이 일반적인 LLM을 사용한다는 것이므로, CSAIL 팀은 더 광범위한 계획을 도울 수 있는 더 강력하고 미세하게 조정된 언어 모델을 적용하기를 원합니다. 웡과 그녀의 동료들은 또한 CSAIL: LGA (언어 안내 추상화)에서 갓 나온 로봇 조작 프레임워크와 에이다를 결합하는 것을 고려하고 있습니다.
언어 안내 추상화: 로봇 작업을 위한 표현
MIT 전기공학과 컴퓨터 공학과 CSAIL 계열의 대학원생인 Andi Peng SM '23과 그녀의 공동 저자들은 공장이나 부엌과 같은 복잡한 환경에서 불필요한 세부 사항을 제거하면서 기계가 주변 환경을 인간처럼 해석할 수 있도록 돕는 방법을 고안했습니다. LILO와 Ada와 마찬가지로 LGA는 자연어가 어떻게 우리를 더 나은 추상화로 이어가는지에 대한 참신한 초점을 맞추고 있습니다.
이러한 더 구조화되지 않은 환경에서 로봇은 기본적인 훈련을 미리 받더라도 임무를 수행하는 것에 대한 약간의 상식이 필요할 것입니다. 예를 들어 로봇에게 그릇을 달라고 하면 기계는 주변 환경에서 어떤 기능이 중요한지에 대한 일반적인 이해가 필요할 것입니다. 거기에서 원하는 항목을 어떻게 제공할지에 대한 추론을 할 수 있습니다.
LGA의 경우, 인간은 먼저 "모자를 가져와"와 같은 자연어를 사용하여 일반적인 작업 설명과 함께 사전 훈련된 언어 모델을 제공합니다. 그런 다음 모델은 이 정보를 이 작업을 수행하는 데 필요한 필수 요소에 대한 추상화로 변환합니다. 마지막으로, 몇 가지 시연에 대해 훈련된 모방 정책은 이러한 추상화를 구현하여 로봇이 원하는 항목을 잡을 수 있도록 안내할 수 있습니다.
이전의 작업은 로봇을 사전 훈련시키기 위해 사람이 다양한 조작 작업에 대해 광범위한 메모를 하도록 요구했는데, 이것은 비용이 많이 들 수 있습니다. 놀랍게도, LGA는 인간 주석가와 비슷한 추상화를 더 적은 시간에 만들 수 있도록 언어 모델을 안내합니다. 이것을 설명하기 위해, LGA는 보스턴 다이내믹스의 스팟(Spot)이 네 발로 과일을 집어 들고 재활용 쓰레기통에 음료를 던지는 것을 돕기 위한 로봇 정책을 개발했습니다. 이 실험들은 MIT가 개발한 방법이 어떻게 세계를 스캔하고 비구조화 환경에서 효과적인 계획을 세울 수 있는지 보여주며, 잠재적으로 도로의 자율 주행 차량과 공장과 부엌에서 일하는 로봇을 안내합니다.
"로봇 공학에서 우리가 자주 무시하는 진실은 로봇을 실제 세계에서 유용하게 만들기 위해 얼마나 많은 데이터를 정제해야 하는지입니다"라고 펭은 말합니다. "로봇이 과제를 수행하도록 훈련시키기 위해 이미지에 있는 것을 단순히 암기하는 것을 넘어, 우리는 언어와 함께 컴퓨터 비전과 캡션 모델을 활용하고자 했습니다. 로봇이 보는 것으로부터 텍스트 캡션을 만들어냄으로써, 우리는 언어 모델이 본질적으로 로봇을 위한 중요한 세계 지식을 구축할 수 있다는 것을 보여줍니다."
LGA의 과제는 일부 동작을 언어로 설명할 수 없어 특정 작업을 과소 지정하는 것입니다. 환경에서 특징을 나타내는 방식을 확장하기 위해 Peng과 그녀의 동료들은 멀티모달 시각화 인터페이스를 작업에 통합하는 것을 고려하고 있습니다. 한편, LGA는 인간에게 도움의 손길을 줄 때 로봇이 주변 환경에 대해 더 나은 느낌을 얻을 수 있는 방법을 제공합니다.
인공지능의 "흥미로운 개척지"
논문에 참여하지 않은 위스콘신 대학교 매디슨 로버트 호킨스 조교수는 "도서관 학습은 인공지능에서 가장 흥미로운 분야 중 하나이며, 구성 추상화를 발견하고 추론하는 길을 제공합니다"라고 말합니다. 호킨스는 이 주제를 탐구하는 이전의 기술들이 "대규모로 사용하기에는 계산 비용이 너무 많이 들고" 새로운 기능을 많은 언어로 설명하는 데 사용되는 키워드인 람다에 문제가 있다고 지적합니다. "그들은 해석하기 어려운 함수들의 큰 더미인 불투명한 "람다 샐러드"를 생산하는 경향이 있습니다. 이 최근의 논문들은 큰 언어 모델을 상징적인 검색, 압축, 그리고 계획 알고리즘과 상호 작용하는 고리에 놓음으로써 앞으로 나아가는 매력적인 방법을 보여줍니다. 이 작업은 당면한 과제를 위해 더 해석 가능하고 적응력이 뛰어난 도서관을 빠르게 확보할 수 있게 해줍니다."
자연어를 사용하여 고품질의 코드 추상화 라이브러리를 구축함으로써 세 가지 신경 기호 방법은 언어 모델이 미래에 더 정교한 문제와 환경을 더 쉽게 해결할 수 있도록 합니다. 프롬프트 내의 정확한 키워드에 대한 이러한 더 깊은 이해는 더 인간과 유사한 인공지능 모델을 개발하는 데 있어 앞으로의 길을 제시합니다.
MIT CSAIL 멤버들은 각 논문의 수석 저자들입니다: LILO와 Ada 모두의 뇌 및 인지 과학 교수인 Joshua Tenenbaum; LGA의 항공 및 우주학 학과장인 Julie Shah; 그리고 전기 공학 및 컴퓨터 과학 부교수인 Jacob Andreas. 이 세 논문 모두의 추가 저자들은 모두 박사과정 학생들입니다: LILO의 경우 Maddy Bowers와 Theo X. Olausson, Ada의 경우 Jiayuan Mao와 Pratyusha Sharma, 그리고 LGA의 경우 Belinda Z. Liu. Harvey Mudd College의 Mukin Liu는 LILO의 공동 저자였습니다; Princeton University의 Zachary Siegel, Berkeley California University의 Jaihai Feng, 그리고 Microsoft의 Noa Korneev. 그리고 Ilia Sucholutsky, Theodore R. Sumers, 그리고 Princeton의 Thomas L. Griffiths가 LGA의 공동 저자였습니다.
LILO와 Ada는 부분적으로 MIT Quest for Intelligence, MIT-IBM Watson AI Lab, Intel, 미 공군 과학 연구소, 미 국방 고등 연구 프로젝트 에이전시, 미 해군 연구소의 지원을 받았고 후자의 프로젝트도 Center for Brain, Minds and Machine으로부터 자금을 받았습니다. LGA는 미국 국립 과학 재단, Open Parkhelinity, 캐나다 자연 과학 공학 연구 위원회, 그리고 미국 국방부로부터 자금을 받았습니다.
세 가지 신경 기호 방법은 언어 모델이 자연어 내에서 더 나은 추상화를 찾은 다음 이러한 표현을 사용하여 복잡한 작업을 실행하는 데 도움이 됩니다.
대형 언어 모델(LLM)은 프로그래밍 및 로봇 공학 작업에 점점 더 유용해지고 있지만, 더 복잡한 추론 문제의 경우 이러한 시스템과 인간 사이의 격차가 크게 나타나고 있습니다. 인간처럼 새로운 개념을 학습할 수 없으면 이러한 시스템은 좋은 추상화(본질적으로 덜 중요한 세부 사항을 건너뛰는 복잡한 개념의 고수준 표현)를 형성하지 못하므로 더 정교한 작업을 요청 받으면 스퍼터링됩니다.
운 좋게도, MIT 컴퓨터 과학 및 인공지능 연구소 (CSAIL) 연구원들은 자연어 내에서 추상화의 보고를 발견했습니다. 이번 달에 국제 학습 표현 회의에서 발표될 세 가지 논문에서, 그 그룹은 우리의 일상 단어들이 어떻게 언어 모델에 대한 풍부한 맥락의 원천인지를 보여주고, 그들이 코드 합성, 인공지능 계획, 그리고 로봇 네비게이션과 조작을 위해 더 나은 가장 중요한 표현을 만들도록 돕습니다.
세 개의 개별 프레임워크는 주어진 작업을 위해 추상화 라이브러리를 구축합니다. LILO(언어 관찰을 통한 라이브러리 유도)는 코드를 합성, 압축 및 문서화할 수 있습니다. 에이다(액션 도메인 획득)는 인공지능 에이전트를 위한 순차적 의사 결정을 탐색하고, LGA(언어 유도 추상화)는 로봇이 환경을 더 잘 이해하여 보다 실현 가능한 계획을 개발할 수 있도록 도와줍니다. 각 시스템은 인간과 같은 신경망과 프로그램과 같은 논리적 구성 요소를 혼합한 AI 유형인 신경 기호 방법입니다.
LILO: 부호화하는 신경 기호 프레임워크
대규모 언어 모델은 소규모 코딩 작업에 대한 해결책을 신속하게 작성하는 데 사용될 수 있지만 인간 소프트웨어 엔지니어가 작성한 것처럼 전체 소프트웨어 라이브러리를 설계할 수는 없습니다. 소프트웨어 개발 능력을 더욱 발전시키기 위해 AI 모델은 코드를 간결하고 판독 가능하며 재사용 가능한 프로그램의 라이브러리에 리팩터링(리팩터링)해야 합니다.
이전에 개발된 MIT 주도의 스티치 알고리즘과 같은 리팩토링 도구는 추상화를 자동으로 식별할 수 있으므로, 디즈니 영화 "릴로 & 스티치"에 동의하여 CSAIL 연구원들은 이러한 알고리즘 리팩토링 접근 방식을 LLM과 결합했습니다. 그들의 신경 기호 방법 LILO는 표준 LLM을 사용하여 코드를 작성한 다음 스티치와 쌍을 이루어 라이브러리에 포괄적으로 문서화된 추상화를 찾습니다.
자연어에 대한 LILO의 독특한 강조는 그 시스템이 일련의 코드에서 모든 모음을 식별하고 제거하고 눈송이를 그리는 것과 같이 인간과 같은 상식적인 지식을 필요로 하는 일들을 할 수 있게 합니다. 두 경우 모두, CSAIL 시스템은 드림코더라고 불리는 MIT의 이전 도서관 학습 알고리즘뿐만 아니라 독립형 LLM을 능가하여 프롬프트 내에서 단어에 대한 더 깊은 이해를 구축할 수 있는 능력을 나타냅니다. 이러한 고무적인 결과는 LILO가 엑셀 스프레드시트와 같은 문서를 조작하기 위한 프로그램을 작성하고, AI가 시각적인 것에 대한 질문에 답하는 것을 돕고, 2D 그래픽을 그리는 것과 같은 것들을 어떻게 도울 수 있는지를 가리킵니다.
"언어 모델들은 자연어로 명명된 기능들로 작업하는 것을 선호합니다"라고 CSAIL의 계열사이자 연구의 주요 필자인 MIT 전기공학과 컴퓨터 공학 박사과정 학생인 Gabe Grand SM '23은 말합니다. "우리의 작업은 언어 모델들을 위한 더 간단한 추상화를 만들고 각각의 추상화에 자연어 이름과 문서를 할당하여 프로그래머들을 위한 더 해석 가능한 코드와 향상된 시스템 성능으로 이어집니다."
프로그래밍 작업에 대한 프롬프트가 나타나면, LILO는 먼저 LLM을 사용하여 학습된 데이터를 기반으로 솔루션을 빠르게 제안한 다음, 시스템은 외부 솔루션을 보다 철저하게 검색합니다. 다음으로, 스티치는 코드 내의 일반적인 구조를 효율적으로 식별하고 유용한 추상화를 끌어냅니다. 그런 다음, 이것들은 LILO에 의해 자동으로 명명되고 문서화되어 시스템이 더 복잡한 작업을 해결하는 데 사용할 수 있는 단순화된 프로그램이 됩니다.
MIT 프레임워크는 아이들에게 프로그래밍을 가르치기 위해 1970년대에 MIT에서 개발된 언어인 로고(Logo)와 같은 도메인별 프로그래밍 언어로 프로그램을 작성합니다. 파이썬(Python)과 같은 더 일반적인 프로그래밍 언어를 처리하기 위해 자동화된 리팩토링 알고리즘을 확장하는 것이 향후 연구의 초점이 될 것입니다. 그럼에도 불구하고, 그들의 작업은 언어 모델이 점점 더 정교한 코딩 활동을 어떻게 촉진할 수 있는지에 대한 한 걸음의 진전을 나타냅니다.
에이다: 자연어 안내 AI 과제 기획
프로그래밍과 마찬가지로 가정과 명령 기반 비디오 게임에서 다단계 작업을 자동화하는 AI 모델은 추상화가 부족합니다. 아침 식사를 요리한다고 상상하고 룸메이트에게 뜨거운 계란을 식탁에 가져오라고 요청하면 주방에서 요리하는 배경 지식을 직관적으로 일련의 행동으로 추상화합니다. 대조적으로 유사한 정보에 대해 훈련된 LLM은 여전히 유연한 계획을 수립하는 데 필요한 것이 무엇인지 추론하는 데 어려움을 겪을 것입니다.
많은 사람들이 세계 최초의 프로그래머로 여기는 유명한 수학자 아다 러브레이스의 이름을 딴 CSAIL이 이끄는 "아다" 프레임워크는 가상 주방 집안일과 게임에 유용한 계획 라이브러리를 개발함으로써 이 문제에 진전을 이룹니다. 이 방법은 잠재적인 작업과 자연어 설명에 대해 훈련한 다음 언어 모델이 이 데이터 세트에서 작업 추상화를 제안합니다. 인간 운영자는 최상의 계획을 점수화하고 필터링하여 가능한 최상의 작업이 다양한 작업에 대한 계층적 계획으로 구현될 수 있도록 합니다.
"전통적으로, 대형 언어 모델은 추상화에 대한 추론과 같은 문제 때문에 더 복잡한 작업에 어려움을 겪어 왔습니다," 라고 MIT 뇌 및 인지 과학 대학원생이자 CSAIL 계열사이자 LILO의 공동 저자인 Ada의 수석 연구원 Lio Wong은 말합니다.
"그러나 우리는 소프트웨어 엔지니어와 로봇 공학자가 가상 환경에서의 의사 결정과 같은 어려운 문제를 해결하기 위해 사용하는 도구를 LLM과 결합할 수 있습니다."
연구원들이 널리 사용되는 대규모 언어 모델인 GPT-4를 에이다에 통합했을 때, 그 시스템은 인공지능 의사 결정 기준선인 "정책으로 코드화"보다 주방 시뮬레이터와 미니 마인크래프트에서 더 많은 작업을 완료했습니다. 에이다는 자연어로 숨겨진 배경 정보를 사용하여 찬 와인을 캐비닛에 넣고 침대를 만드는 방법을 이해했습니다. 그 결과는 각각 59%와 89%의 놀라운 작업 정확도 향상을 나타냈습니다.
이 성공으로, 연구원들은 에이다가 다른 가정 일을 돕고 부엌에 있는 여러 로봇들을 도울 수 있기를 희망하면서, 그들의 일을 실제 가정에 일반화하기를 희망합니다. 현재, 그것의 주요 한계는 그것이 일반적인 LLM을 사용한다는 것이므로, CSAIL 팀은 더 광범위한 계획을 도울 수 있는 더 강력하고 미세하게 조정된 언어 모델을 적용하기를 원합니다. 웡과 그녀의 동료들은 또한 CSAIL: LGA (언어 안내 추상화)에서 갓 나온 로봇 조작 프레임워크와 에이다를 결합하는 것을 고려하고 있습니다.
언어 안내 추상화: 로봇 작업을 위한 표현
MIT 전기공학과 컴퓨터 공학과 CSAIL 계열의 대학원생인 Andi Peng SM '23과 그녀의 공동 저자들은 공장이나 부엌과 같은 복잡한 환경에서 불필요한 세부 사항을 제거하면서 기계가 주변 환경을 인간처럼 해석할 수 있도록 돕는 방법을 고안했습니다. LILO와 Ada와 마찬가지로 LGA는 자연어가 어떻게 우리를 더 나은 추상화로 이어가는지에 대한 참신한 초점을 맞추고 있습니다.
이러한 더 구조화되지 않은 환경에서 로봇은 기본적인 훈련을 미리 받더라도 임무를 수행하는 것에 대한 약간의 상식이 필요할 것입니다. 예를 들어 로봇에게 그릇을 달라고 하면 기계는 주변 환경에서 어떤 기능이 중요한지에 대한 일반적인 이해가 필요할 것입니다. 거기에서 원하는 항목을 어떻게 제공할지에 대한 추론을 할 수 있습니다.
LGA의 경우, 인간은 먼저 "모자를 가져와"와 같은 자연어를 사용하여 일반적인 작업 설명과 함께 사전 훈련된 언어 모델을 제공합니다. 그런 다음 모델은 이 정보를 이 작업을 수행하는 데 필요한 필수 요소에 대한 추상화로 변환합니다. 마지막으로, 몇 가지 시연에 대해 훈련된 모방 정책은 이러한 추상화를 구현하여 로봇이 원하는 항목을 잡을 수 있도록 안내할 수 있습니다.
이전의 작업은 로봇을 사전 훈련시키기 위해 사람이 다양한 조작 작업에 대해 광범위한 메모를 하도록 요구했는데, 이것은 비용이 많이 들 수 있습니다. 놀랍게도, LGA는 인간 주석가와 비슷한 추상화를 더 적은 시간에 만들 수 있도록 언어 모델을 안내합니다. 이것을 설명하기 위해, LGA는 보스턴 다이내믹스의 스팟(Spot)이 네 발로 과일을 집어 들고 재활용 쓰레기통에 음료를 던지는 것을 돕기 위한 로봇 정책을 개발했습니다. 이 실험들은 MIT가 개발한 방법이 어떻게 세계를 스캔하고 비구조화 환경에서 효과적인 계획을 세울 수 있는지 보여주며, 잠재적으로 도로의 자율 주행 차량과 공장과 부엌에서 일하는 로봇을 안내합니다.
"로봇 공학에서 우리가 자주 무시하는 진실은 로봇을 실제 세계에서 유용하게 만들기 위해 얼마나 많은 데이터를 정제해야 하는지입니다"라고 펭은 말합니다. "로봇이 과제를 수행하도록 훈련시키기 위해 이미지에 있는 것을 단순히 암기하는 것을 넘어, 우리는 언어와 함께 컴퓨터 비전과 캡션 모델을 활용하고자 했습니다. 로봇이 보는 것으로부터 텍스트 캡션을 만들어냄으로써, 우리는 언어 모델이 본질적으로 로봇을 위한 중요한 세계 지식을 구축할 수 있다는 것을 보여줍니다."
LGA의 과제는 일부 동작을 언어로 설명할 수 없어 특정 작업을 과소 지정하는 것입니다. 환경에서 특징을 나타내는 방식을 확장하기 위해 Peng과 그녀의 동료들은 멀티모달 시각화 인터페이스를 작업에 통합하는 것을 고려하고 있습니다. 한편, LGA는 인간에게 도움의 손길을 줄 때 로봇이 주변 환경에 대해 더 나은 느낌을 얻을 수 있는 방법을 제공합니다.
인공지능의 "흥미로운 개척지"
논문에 참여하지 않은 위스콘신 대학교 매디슨 로버트 호킨스 조교수는 "도서관 학습은 인공지능에서 가장 흥미로운 분야 중 하나이며, 구성 추상화를 발견하고 추론하는 길을 제공합니다"라고 말합니다. 호킨스는 이 주제를 탐구하는 이전의 기술들이 "대규모로 사용하기에는 계산 비용이 너무 많이 들고" 새로운 기능을 많은 언어로 설명하는 데 사용되는 키워드인 람다에 문제가 있다고 지적합니다. "그들은 해석하기 어려운 함수들의 큰 더미인 불투명한 "람다 샐러드"를 생산하는 경향이 있습니다. 이 최근의 논문들은 큰 언어 모델을 상징적인 검색, 압축, 그리고 계획 알고리즘과 상호 작용하는 고리에 놓음으로써 앞으로 나아가는 매력적인 방법을 보여줍니다. 이 작업은 당면한 과제를 위해 더 해석 가능하고 적응력이 뛰어난 도서관을 빠르게 확보할 수 있게 해줍니다."
자연어를 사용하여 고품질의 코드 추상화 라이브러리를 구축함으로써 세 가지 신경 기호 방법은 언어 모델이 미래에 더 정교한 문제와 환경을 더 쉽게 해결할 수 있도록 합니다. 프롬프트 내의 정확한 키워드에 대한 이러한 더 깊은 이해는 더 인간과 유사한 인공지능 모델을 개발하는 데 있어 앞으로의 길을 제시합니다.
MIT CSAIL 멤버들은 각 논문의 수석 저자들입니다: LILO와 Ada 모두의 뇌 및 인지 과학 교수인 Joshua Tenenbaum; LGA의 항공 및 우주학 학과장인 Julie Shah; 그리고 전기 공학 및 컴퓨터 과학 부교수인 Jacob Andreas. 이 세 논문 모두의 추가 저자들은 모두 박사과정 학생들입니다: LILO의 경우 Maddy Bowers와 Theo X. Olausson, Ada의 경우 Jiayuan Mao와 Pratyusha Sharma, 그리고 LGA의 경우 Belinda Z. Liu. Harvey Mudd College의 Mukin Liu는 LILO의 공동 저자였습니다; Princeton University의 Zachary Siegel, Berkeley California University의 Jaihai Feng, 그리고 Microsoft의 Noa Korneev. 그리고 Ilia Sucholutsky, Theodore R. Sumers, 그리고 Princeton의 Thomas L. Griffiths가 LGA의 공동 저자였습니다.
LILO와 Ada는 부분적으로 MIT Quest for Intelligence, MIT-IBM Watson AI Lab, Intel, 미 공군 과학 연구소, 미 국방 고등 연구 프로젝트 에이전시, 미 해군 연구소의 지원을 받았고 후자의 프로젝트도 Center for Brain, Minds and Machine으로부터 자금을 받았습니다. LGA는 미국 국립 과학 재단, Open Parkhelinity, 캐나다 자연 과학 공학 연구 위원회, 그리고 미국 국방부로부터 자금을 받았습니다.