Research

Robot Intelligence


▶ Manipulation Service Development with Humanoid Robot

Objective

·   Hubo 로봇과 휴먼 스케일(human-scale)의 물체들이 존재하는 편의점 환경에서 로봇 지능 체계의 실증적 검증
·   목표 작업 1: 상품 주문 시 진열대 또는 보관대에 있는 상품을 제공
·   목표 작업 2: 진열대에 상품이 비어 있을 경우 보관대에서 상품을 가져와 보충

Approach

·   인식 정보를 실시간으로 지식화하고 고수준의 작업 상태 서술자(task state predicate)들을 추론 및 갱신
·   고수준의 작업 상태 서술자로부터 추상적 작업 계획(abstract task plan)을 생성
·   추상적 작업 계획의 모션-실현 가능성(motion-feasibility)을 검증하고 이를 실행
·   모션-실현 가능한 작업 계획 생성 또는 실행 실패 시 재계획(replanning) 실시

Application




▶ Hybrid Imitation Learning for Robotic Manipulation Task

Objective

·   다 자유도 로봇 팔(multi-DOF robot arm)의 물체 조작 작업(objective manipulation tasks)을 위한 혼합 학습(hybrid learning) 기술 연구
·   연속 상태-행동 공간(continuous state- action space)에서 로봇 행동 정책(policy) 학습을 위해 효율적인 학습 방법 요구
·   효과적인 로봇 조작 작업 학습을 위해 종래의 행위 복제(behavioral cloning)과 상태 경로 복제(state trajectory cloning)의 한계를 극복하기 위한 방법 요구

Approach

·   종래의 모방 학습 방법들의 한계를 상호 보완하기 위한 혼합 모방 학습 방법 설계
·   행위 복제와 다이나믹스 모델(dynamis model)을 이용한 상태 경로 복제를 혼합
·   이종 손실 함수(heterogeneous loss function) 결합을 통한 두 학습 방법의 혼용
·   행위 복제의 학습 수렴도(learning convergence)에 따라 두 손실 함수의 가중 비율(importance rate) 자동 조정




▶ AugGAIL: Generative Adversarial Imitation Learning for Robotic Manipulation Tasks

Objective

·   다 자유도 로봇 팔(multi-DOF robot arm)의 물체 조작 작업(objective manipulation tasks)을 위한 모방 학습(imitation learning) 기술 연구
·   연속 상태-행동 공간(continuous state- action space)에서 양질의 행동 정책(policy)을 효율적으로 배우기 위해
    강화 학습(reinforcement learning)과 모방 학습(imitation learning)이 결합된 학습 방법 요구
·   효과적인 로봇 조작 작업 학습을 위해 종래의 GAIL 학습 프레임워크의 한계를 극복하기 위한 방법들 요구

Approach

·   GAIL 기반의 모방 학습 프레임워크 AugGAIL 설계
·   PPO(Proximal Policy Optimization) 알고리즘 적용
·   보상 함수(reward function) 확장
·   판별자 네트워크(discriminator network) 학습용 데이터 샘플링 전략
·   행위 복제 사전 학습(behavioral cloning pretraining)




▶ Constraint Satisfaction for Motion-Feasibility Checking

Objective

·   인공지능 분야의 작업 계획 생성(task planning)과 로봇공학 분야의 모션 계획 생성(motion planning)을 결합하여 모션-실현 가능한 작업 계획(motion-feasible task plan)을 생성하는 작업-모션 계획의 연계(task and motion planning) 관한 연구
·   작업-모션 계획의 전체적인 연계 과정 중에서, 작업 계획 스켈레톤(task plan skeleton)이 주어졌을 때 이 작업 스켈레톤의 모션-실현 가능성(motion-feasibility)을 검증하는 것에 초점을 맞춤
·   모션 실현 가능성 검증 문제를 제약 충족 문제(constraint satisfaction problem)로 모델링하고 해결하는 방법을 제안

Approach

·   작업 계획 스켈레톤의 값이 할당된 인자(bound parameter)와 그렇지 않은 인자(unbound parameter)가 갖는 의미(semantic)를 발견하고 이를 이용한 포즈 후보군을 생성하는 방법 설계
·   동작들 간의 의존성(inter-action dependency)과 각 동작 내 의존성(intra-action dependency)과 같은 영역 특수적 지식을 발견하고 이를 이용한 정렬 휴리스틱을 설계
·   모션 실현 가능성 검증에 효과적인 특수 목적(special-purpose) 제약 전파와 이를 수반하는 탐색 전략을 설계

Application




▶ Generating Robot Task Plans from Action Ontology

Objective

·   지능형 서비스 로봇이 길찾기(navigation), 조작(manipulation) 등의 행동(behavior)들을 수행하기 위해 실행 가능한 형태의 제어 모델(control model)을 자동으로 생성하는 방법에 관한 연구
·   로봇이 스스로 제어 모델을 얻어내기 위한 방법으로 개념적 행위 모델(conceptual action model)로부터 작업 계획(task plan)을 변형(translation)하는 것이 일반적임
·   온톨로지(ontology) 기반의 개념적 행위 모델을 설계하고 개념적 행위 모델로부터 작업 계획을 자동으로 생성해내는 방법을 제안

Approach

·   시맨틱 웹(semantic web) 온톨로지 언어인 OWL을 기반으로 행위들의 클래스 계층(class hierarchy)을 정의
·   행위들의 입력 매개변수(input parameter)와 실행 순서(ordering), 그리고 전-조건(precondition), 지속 조건(durative condition), 효과(effect) 등의 행위 조건들을 표현할 수 있는 다양한 성질(property)들을 정의
·   OWL 언어로 작성된 개념적 행위 모델을 에이전트 계획 언어인 JPL(JAM-agent Plan Language)의 계획 라이브러리(Plan Library)로 변형(Translation)하고 JPL 계획 생성기(JPL Planner)를 이용하여 Task Plan을 생성

Application





▶ Object Modeling for Robot Manipulation

Objective

·   지식 체계 기반의 로봇 물체 조작(robot manipulation)을 위해 물체 카테고리(category), 속성(attribute), 부품(part), 어포던스(affordance), 파지점(grasping point) 등을 표현하는 물체 지식 모델링에 관한 연구
·   물체 지식은 작업 계획 생성(task planning)뿐만 아니라 모션 계획 생성(motion planning)에서도 응용됨에 따라 매우 구체적인 수준으로 확장되어야 함
·   특히, 물체 조작의 정밀도(precision)를 높이기 위해서는 물체 어포던스, 파지점 등은 부품 단위로 모델링이 가능해야 함

Approach

·   온톨로지 기반(ontology-based)의 물체 모델을 구축하기 위해서 가장 먼저 물체들의 개념(concept)을 표현하기 위한 클래스(class)들과 이들 간의 계층(hierarchy)을 구축하고 물체 속성과 부품을 표현할 수 있는 기본적인 성질(property)들을 정의
·   물체에 대한 통상적인 어포던스 지식 뿐만 아니라 물체의 각 부품에 대한 구체적인 어포던스 지식을 표현할 수 있도록 다양한 성질들을 정의
·   다지(multiple fingers)를 가지는 로봇의 손을 대상으로 손의 유형(type), 자세(posture), 그리고 각 손가락 끝점(fingertip)이 물체의 각 부품에 맞닿는 파지점을 표현 가능하도록 다양한 성질들을 정의
·   또한, 동적으로 자세가 변하는 물체와 로봇 팔의 자유도 한계를 고려하여 다양한 자세의 여러 파지점 후보들을 만들 수 있도록 설계

Application





▶ Spatio-Temporal Context Query Processing


Objective

·   3차원 물체들의 개별 인식 정보로부터 현재의 시-공간 상황 지식(spatio-temporal context knowledge)뿐만 아니라 과거의 특정 시간 시점 또는 구간과 현재와 과거를 복합적으로 조회
·   실시간으로 스트림(stream) 형태로 빠른 속도로 입력되는 인식 정보로부터 효율적인 질의 처리 방식 요구
·   높은 시간 의존성을 가지는 서비스 로봇의 상황 정보를 조회할 수 있는 질의 처리기(query processor)

Approach

·   Allen 간격 대수 이론에 기초한 시간 연산자를 포함하고 있는 상황 질의 언어(context query language) 설계
·   시-공간 색인(spatio-temporal index)을 기반으로 메모리 접근 속도를 향상시켜 질의 처리 가속화

Application





▶ Dynamic Context Management


Objective

·   동적으로 변화하는 주변 환경에 대한 올바른 상황 인식(context awareness)과 상황 이해(context understanding) 능력
·   실시간으로 입력되는 다양한 센서 데이터로부터 신속히 의사 결정(decision making)에 필요한 고 수준의 상황 지식(high-level context knowledge)을 생성
·   실시간성을 만족할 수 있는 시-공간 추론(spatio-temporal reasoning)

Approach

·   다양한 종류의 센서와 인식 시스템들을 통합적으로 이용하기 위해, 이들과의 동기 인터페이스와 비-동기 인터페이스를 함께 제공
·   체계적인 상황 지식 생성을 위해 상황 지식 표현의 근간이 되는 개념 계층(concept hierarchy)과 관계 계층(property hierarchy)을 하나의 포괄적인 온톨로지(ontology)로 정의하고 이용
·   온톨로지 지식은 설명 논리(Description Logic, DL) 기반의 온톨로지 언어인 RDF와 OWL로 표현, 반면에 사물과 개념, 그리고 그들 간의 관계들이 만족해야 하는 다양한 공리(axiom)와 추론 규칙(reasoning rule)들은 표현력(expressive power)과 추론의 효율성(reasoning efficiency)을 고려하여 Horn 논리 기반의 Prolog 규칙들로 표현
·   상황 지식 관리와 추론의 효율성을 극대화하기 위해, 저 수준의 상황 지식은 센서 및 인식 데이터가 입력될 때마다 실시간적으로 생성, 반면에 고 수준의 상황 지식은 의사 결정 모듈에서 요구가 있을 때만 후향 시-공간 추론(on-demand, backward, spatio-temporal reasoning)을 통해 생성되도록 알고리즘을 설계





▶ Deep Reinforcement Learning for Manipulation Tasks


Objective

·   다 자유도 로봇 팔(multi-DOF robot arm) 기반의 조작 작업(manipulation task)을 위한 심층 강화 학습(deep reinforcement learning) 기술 연구
·   로봇(Kinova Jaco Arm 6-DOF & Hand 3-DOF), 조작 작업(Catch, Pick & Place), 조작 물체(cube, sphere)
·   연속 상태 공간(continuous state space)
·   연속 행동/제어 공간(continuous action/control space)
·   실시간 제약(real-time constraint)
·   높은 학습 데이터 효율성(data efficiency) 요구

Approach

·   Actor-Critic Policy Gradient 심층 강화 학습 적용
·   종래 Policy Gradient 알고리즘들의 낮은 데이터 효율성(low data efficiency)과 성능 불안정성(unreliable performance)을 극복
·   적응형 KL 기반 PPO(Proximal Policy Optimization) 알고리즘 적용
·   정책 성능의 하한선(low bound of performance)을 새로운 목적 함수로 채용
·   빠르고 안정적인 정책 학습 보장