Research

Computer Vision



▶ Video Scene Graph Generation with Spatio-Temporal Graph Neural Network


Objective

·   비디오 장면 그래프 생성(Video Scene Graph Generation, VidSGG)은 하나의 비디오가 주어졌을 때, 비디오속 등장하는 물체와 그들 간의 관계를 추론하여
    그래프로 표현하는 연구
·   과도하게 생성되는 물체 트랙 쌍(tracklet pairs)들 중에서 관계가 있을 쌍들 만을 가려낼 수 있는 물체 쌍 제안 방법(tracklet pair proposal)이 요구됨
·   물체(object)와 관계(relationship)의 특징 정보에 시 공간 맥락 정보(Spatio temporal context)를 효과적으로 반영할 수 있는 방법이 요구됨
·   시간적 필터링(temporal filtering), 사전학습된 신경망과 통계적 정보를 이용하는 관계성 평가 방법(neural net scoring and statistical scoring)을 사용하는
    새로운 물체 쌍 제안 방법을 제시
·   시-공간 정보를 반영한 시-공간 맥락 그래프(spatio temporal context graph)와 그래프 신경망 기반의 맥락 추론 방법(context reasoning) 제시

Approach

·   물체 트랙 쌍 제안 단계에서는 시간적 필터링, 물체의 클래스 분포도를 이용하는 사전 학습된 신경망과 데이터 집합의 통계적 정보를 이용한 통계적
    평가 방법을 이용하여 희소 그래프(sparse graph) 생성
·   맥락 추론 단계에서는 첫번째로, 시공간 맥락 추론을 위한 두 물체 사이의 거리에 기반한 공간 주의 집중(spatial attention)과 시간적 겹침 정도(temporal attention)에
    기반한 시간 주의 집중 적용
·   두번째로 그래프 신경망을 이용한 물체와 관계들 사이의 시각 맥락 추론(visual context reasoning)과 의미적 맥락 추론(semantice context reasoning)을
    적용하여 맥락 그래프(context graph) 생성
·   분류 단계에서는 관계의 데이터 불균형(relationship class imbalance problem) 문제 해결을 위한 클래스 가중치(class weighting) 적용





▶ Hybrid Learning for Vision-and-Language Navigation Agents


Objective

·   시각-언어 이동(VLN)은 가상환경 내에서 자율 에이전트가 자연어 지시와 실시간 입력 영상을 토대로 목적지까지 이동해야 하는 지능 작업
·   Matterport3D 시뮬레이터와 R2R(Room-to-Room) 벤치마크 데이터 집합을 모델 학습과 성능 검증에 이용
·   VLN 작업에 적합한 효율적인 심층 신경망 모델(deep neural network model) 설계
·   새로운 환경에서의 탐색 작업 성능을 위한 일반화(generalization) 요구

Approach

·   시각과 언어 기반의 이동(VLN) 문제를 위한 새로운 학습 모델 제시
·   모방 학습과 강화 학습을 결합한 복합 학습 (Hybrid Learning Combining Imitation learning and Reinforcement learning, CIR)을 채택
·   정답 경로 기반 보상 함수 (Region Based Alignment, RBA) 제안





▶ Visual Commonsense Reasoning with Pretrained Multimodal Co-Embedder


Objective

·   영상 기반 상식 추론(Visual Commonsense Reasoning)은 하나의 영상, 질문, 응답 리스트가 주어졌을 때, 가장 적절한 답변과 근거를 제시하는 연구
·   서로 다른 타입의 데이터를 어떻게 정렬할 것인가에 대한 멀티 모달 상호 정렬(alignment) 문제를 해결해야함
·   문제 해결에 필요한 기초 개념 지식을 어떻게 확보하고, 임베딩(embedding)하며, 기존 정보와 통합하여 학습할지에 관한 상식 습득 문제를 해결해야함
·   영상, 자연어 정보 뿐만 아니라, 지식 정보까지 사용하는 새로운 사전 학습된 멀티 헤드 어텐션 모델(Pretrained multi-head attention model)을 제안
·   별도의 외부 지식(external knowledge)을 추출 및 사용하기 위한 지식 추출 모듈(knowledge extraction module)을 제안

Approach

·   지식 추출단계에서는 입력 정보로부터 얻은 키워드를 Conceptnet에 검색하고, 질문과 유사도 계산을 통해 지식 추출(knowledge extraction)
·   멀티 모달 임베딩(multimodal embedding) 과정에서는 서로 다른 종류의 데이터를 사전 학습한 멀티 헤드 어텐션 (pretrained multi-head attention)
    모델을 이용하여 임베딩
·   멀티 모달(multimodal) 모델은 효과적인 임베딩을 위하여 마스킹된 언어 모델링, 마스킹된 영역 분류, 이미지-텍스트-지식 매칭 3가지 작업으로 사전 학습
·   답변 결정 단계에서는 함께 임베딩된 영상, 자연어, 지식 정보로 최종 답변을 예측





▶ Joint Multi-modal Embedding and Backtracking Search for Vision and Language Navigation(VLN)


Objective

·   시각-언어 이동(VLN)은 가상환경 내에서 자율 에이전트가 자연어 지시와 실시간 입력 영상을 토대로 목적지까지 이동해야 하는 지능 작업
·   Matterport3D 시뮬레이터와 R2R(Room-to-Room) 벤치마크 데이터 집합을 모델 학습과 성능 검증에 이용
·   현재 위치 추정 및 지시에 의존적인 행동 결정을 위하여 자연어 지시-입력 영상 간의 상호 정렬(multi-modal alignment)이 요구
·   탐색 성공률(success rate)과 경로 길이 및 시간에 대한 탐색 효율성(search efficiency)을 함께 고려하는 신규 탐색 기법이 요구
·   VLN 작업을 위한 효율적인 심층 신경망 모델(deep neural network model) 설계

Approach

·   시각 언어 이동 문제가 갖는 지시-영상 간 상호 정렬 한계성을 해결하기 위한 신규 공동 임베딩 모듈을 제안
·   트랜스포머 기반의 선행학습 공동 임베딩 모듈(pretrained joint multi-modal embedding module) 적용
·   이전까지의 이력을 효율적으로 사용할 수 있는 시간적 맥락화 모듈(temporal contextualizing module) 제안
·   역 추적 및 지역, 전역적 평가가 불가능한 기존 탐색 기법의 한계성을 해결하기 위한 신규 탐색 기법을 제안
·   역추적이 가능한 지역적 탐색(Backtracking enabled Greedy Local Search, BGLS) 알고리즘 제안
·   행동 선택을 위한 지역적 평가 네트워크(local scoring network)와 전역적 평가 네트워크(global scoring network) 설계





▶ Visual Dialog


Objective

·   영상 기반 대화(Visual Dialog)는 하나의 영상과 그 영상에 관한 설명문을 기반으로 연속적으로 주어지는 질문에 가장 올바른 답변을 생성하는 연구
·   현재 질문과 대화 이력을 기반으로 신경망 모듈들을 동적으로 결합하는 새로운 모듈 신경망(Neural Module Network)를 제안
·   영상 기반 대화가 갖는 시각적 상호 참조 해소 문제를 해결하기 위한 새로운 저장 방식의 참조 풀과 참조 모듈을 제안
·   비교 질문에 효과적으로 대처할 수 있는 비교 모듈, 삼중 주의 집중 메커니즘을 적용한 탐지 모듈을 제안
·   비인칭 대명사 ‘it’을 프로그램 생성 단계에서 별도로 처리하는 방법 제안
·   대규모 벤치마크 데이터 집합인 VisDial v0.9를 이용

Approach

·   프로그램 생성 단계에서는 현재 질문에 적합한 답변을 결정하는데 필요한 모듈들과 그들의 실행 순서를 경정하는 하나의 질문 맞춤형 프로그램 제안
·   프로그램 실행 단계에서는 제안된 프로그램에 따라 각 신경망 모듈들을 동적으로 연결 및 실행
·   답변 디코딩 단계에서는 프로그램 실행 결과인 맥락 벡터를 활용하여 답변 리스트 중 가장 적절한 답변 결정
·   참조 풀 갱신 단계에서는 현재 라운드의 모든 언어를 융합한 특징과 영상에 대한 최종 주의 집중 지도를 참조 풀에 저장

Application





▶ Dynamic Scene Graph Generation from Drama Video


Objective

·   드라마/비디오 주석 데이터 및 장면 그래프 생성을 위한 학습 기술에 관한 연구
·   드라마 ‘미생’의 비디오를 장면 별 등장인물(Character), 발생 장소(Place), 시간대(Timezone), 물체(Object), 행위(Activity), 설명문(Caption)을 인식하는 심층 신경망(Deep Neural Network) 학습 기술 제안
·   인식한 결과와 이를 토대로 한 구조화된 지식 그래프 형태인 장면 그래프(Scene Graph)를 표현할 수 있는 시각화 기술 제안
·   인식 모델들을 위한 학습 및 검증 데이터 집합 생성

Approach

·   드라마/비디오 주석 데이터를 자동으로 생성하기 위한 Annotation Tool 개발
·   인물 인식 모델은 얼굴 탐지 단계와 얼굴 분류 단계인 두 단계로 나누어 설계
·   장소 & 시간대 인식 모델은 모두 ResNet 모델로 설계
·   물체 탐지 모델은 MS-COCO 데이터 집합으로 사전 학습한 RetinaNet 활용, 검증 데이터로써 미생에서 자주 등장하는 물체 클래스만 사용하여 진행
·   행동 인식 모델은 C3D모델에 LSTM을 적용하여 클립 간 정보 전달 활성화할 수 있도록 설계
·   캡션 생성 모델은 Encoder-Decoder 기반의 LSTM 모델 설계

Application





▶ Dense Video Captioning


Objective

·   비디오를 효과적으로 표현하는 자연어 캡션을 자동으로 생성하는 방법에 관한 연구
·   입력 비디오를 효과적으로 표현하기 위하여 CNN으로부터 추출한 시각 특징(visual feature)뿐만 아니라 고-수준 특징(high-level feature)인 정적/동적 의미 특징(static/dynamic semantic features) 사용을 제안
·   비디오의 예측된 미래 정보까지 이용하여 보다 풍부한 맥락 정보를 활용한 이벤트 시간 영역 탐지 수행
·   학습한 특징을 효과적으로 캡션 생성에 사용하기 위해 주의 집중(attention)과 맥락 게이트(context gating) 기법을 적용한 캡션 생성을 제안
·   대용량 공개 벤치마크 데이터 집합인 ActivityNet Captions 데이터 집합을 이용

Approach

·   의미 특징을 비디오 내의 정적인 속성(물체, 사람, 배경 등)에 해당하는 정적 의미 특징과 비디오 내의 동적인 속성(행위)에 해당하는 동적 의미 특징으로 나누어 학습
·   양방향 LSTM(Bidirectional LSTM, BLSTM)을 통해 얻은 비디오의 예측된 미래 정보를 사용하여 비디오의 맥락정보를 보다 풍부하게 활용, 효과적인 이벤트 시간 영역 탐지 수행
·   시간단계(timestep)마다 현재 생성될 단어와 연관된 의미 특징에 주의집중 가중치(attention weight)를 부여하여 캡션 생성
·   맥락 게이트를 통해 시간 단계마다 입력 비디오 특징과 문맥 정보 중 어느 것이 중요한지 판단하여 캡션 생성

Application





▶ 3D Scene Graph Generation for Visual Experience-based Question Answering


Objective

·   3차원 환경에서 에이전트의 경험에 대한 시각 질문 응답(visual experience-based question answering) 문제 제안
·   3차원 환경에 대한 상태 지식(state knowledge)을 생성하고, 배경 지식 베이스(background knowledge base)와 결합하여 주어진 질문에 대한 답변 생성
·   3차원 장면 그래프(3d scene graph)를 생성하고 상태 지식으로 전환하여 사용

Approach

·   심층 신경망을 이용한 3차원 물체 탐지, 물체 속성 인식, 공간 관계 인식을 통한 3차원 장면 그래프 생성
·   행동 모델(action model)을 통해 행동에 따른 상태 변화 예측
·   심층 신경망을 통해 자연어 문장을 정형화된 질의(formal query)로 변환
·   상태 지식과 배경 지식 베이스를 기반으로, 주어진 질의에 대한 지식 추론(knowledge reasoning)을 수행하여 답변 생성

Application




▶ Activity Detection from Video


Objective

·   비디오 내에서 사람의 행동이 존재하는 영역 탐색(region proposal)과 이 영역 내의 행동을 분류(activity classification)하는 행동 탐지(activity detection)에 관한 연구
·   비디오로부터 각 행동 별 시간적, 공간적 패턴(temporal and spatial pattern)을 잘 표현할 수 있는 멀티 모달 특징(multimodal feature)들을 추출해낼 뿐만 아니라 고수준의 의미적 특징(semantic feature)들을 추출하여 학습에 이용
·   대용량 공개 벤치마크 데이터 집합인 ActivityNet 비디오 데이터를 이용

Approach

·   16 프레임(frame)의 비디오로부터 C3D를 이용하여 시간 특징을 추출하고 ResNet을 이용하여 공간 특징을 추출하는 두 가지 심층 신경망 모델 학습
·   의미적 특징 학습을 위해 앞서 추출된 공간 특징으로부터 각각 동사(verb)와 명사(noun) 특징을 추출하는 두 가지 완전 연결 신경망 모델 학습
·   후보 영역(anchor box)을 이용한 행동 영역 탐지와 분류를 위해 양방향 BI-LSTM을 이용한 두 가지 심층 신경망 모델 학습

Application





▶ Referring Expression Comprehension

Objective

·   참조 표현(referring expression)이란 주어진 영상에서 특정 물체 영역을 가리키는 문장을 의미
·   참조 표현(referring expression)이 가리키는 영상 내 영역을 찾아내는 방법에 관한 연구
·   영상 처리와 자연어 처리를 병행하는 멀티 모달 처리(multimodal processing)에 관한 연구

Approach

·   주어진 참조 표현을 대상 영역, 관계, 참조 영역으로 나누어 처리
·   각 부분 표현별로 영상 내 후보 영역들과 비교하여 적합도 판정
·   영상 및 자연어 처리를 위한 CNN, Bidirectional LSTM 사용
·   최적의 성능을 위한 모듈 구조 모델 제시

Application





▶ Image Captioning with Deep Neural Networks


Objective

·   효과적인 이미지 캡션 생성(image captioning)을 위해서는 언어 모델과 시각 모델 모두 필요
·   언어 모델(language model)과 시각 모델(visual model)의 효과적인 결합 방식에 관한 연구
·   이미지 캡션 생성에 유리한 순환 신경망 유닛(recurrent unit) 에 관한 연구

Approach

·   멀티 모달 순환 신경망(multimodal recurrent neural network) 모델 제시
·   시각 특징 추출을 위해 고성능의 Inception v3 convolutional neural network을 채택
·   시각 모델과 언어 모델을 결합하는 다양한 네트워크 구조(network structures) 비교와 최적 구조 제시
·   캡션 정확도(caption accuracy)와 모델 전이(model transfer) 면에서 LSTM와 GRU 유닛들의 성능 비교

Application





▶ 3D Scene Labeling


Objective

·   2차원 RGB-D 비디오 영상(video images)을 이용하여 포인트 클라우드(point cloud) 형태의 3차원 장면을 복원(3D scene reconstruction)하고, 해당 장면에 포함된 물체들을 탐지하여 레이블링(object labeling)
·   3차원 장면을 구성하는 모든 포인트의 레이블을 결정하기 위해서는 높은 계산 복잡도(high computational complexity) 요구
·   각 포인트의 지역적 특성들(local features)만으로는 정확한 레이블 추정이 어려움. 다양한 문맥적 특성들(contextual features)이 고려되어야 함.

Approach

·   복원된 3차원 포인트 클라우드를 복셀(voxel) 단위로 세그먼테이션(segmentation)
·   각 복셀이 속한 물체 유형(object category)을 추정하여 레이블을 결정
·   확률 그래프 모델(probabilistic graphical model)의 하나인 MRF(Markov Random Field) 을 이용하여 레이블 추정(label estimation)
·   노드 평가(node potential)를 위해 물체 탐지기(object detector)와 3차원 위치 사전 확률 지도(3D location prior map)을 활용
·   에지 평가(edge potential)를 위해 다양한 기하학적 제약들(geometric constraints)을 이용

Application





▶ Hierarchical Feature Learning for Object Recognition

Objective

·   컬러(RGB) 영상은 물체의 색상과 텍스처(Texture)정보가 풍부하지만, 기하학적 정보가 부족
·   깊이(Depth) 영상은 물체의 입체적 모양 정보를 직접 표현하지 못함
·   사람이 만든 특징(human-designed feature)들의 일반화 한계
·   범용적으로 이용 가능한 특징 학습 방법 제시

Approach

·   깊이 영상을 전처리(Pre-processing)하여, 모양(shape) 정보 추측에 유리한 법선 벡터(Normal Vectors)로 변환
·   법선 벡터와 컬러 영상을 함께 물체 인식 시스템의 입력으로 사용
·   낮은 레벨(low-level)과 높은 레벨(high-level)의 정보를 모두 활용 가능한 계층적 특징 학습(Hierarachical Feature Learning)을 통해, 물체 인식에 효과적인 특징 자동 추출

Application





▶ 3D Scene Reconstruction


Objective

·   카메라로부터 입력되는 RGB-D 영상(image)을 기반으로 주행 거리를 측정(odometry)
·   측정된 주행 거리를 최적화(optimization)하여 3D 장면 재구성(scene reconstruction)
·   주행거리의 오차(error)로 인한 드리프트(drift) 발생 문제점

Approach

·   주행 거리 오차를 줄이기 위해 특징을 추출(feature extraction)하고, 추출된 특징 중 정상집합 선별(inlier detection) 및 정제(refine)
·   정제된 정상집합의 재투영 에러 최소화(reprojection error minimization)를 통한 주행거리 측정
·   측정된 주행거리를 최적화하여 3D 장면 재구성

Application





▶ Visual Loop Closure Detection


Objective

·   카메라의 이동 경로 중 과거에 지나온 위치나 장소를 재방문(revisit) 한 지점을 자동으로 탐지
·   방문하는 장소가 증가할수록 루프 결합 탐지(loop closure detection)를 위해 저장되는 영상이 증가
·   저장되는 영상이 증가할수록 영상들 사이의 비교 연산이 증가

Approach

·   카메라의 주행거리(odometry)를 기반으로 키 프레임(key frame) 영상을 선택
·   선택된 키 프레임 영상을 DBoW 이미지 데이터베이스 시스템을 이용하여 저
·   현재 입력된 영상과 데이터베이스에 저장된 영상과의 비교를 통해 루프 결합을 탐지

Application





▶ Gesture Recognition with RGB-D Camera


Objective

·   카메라에서 입력된 영상으로부터 실험자의 제스처(gesture)를 판별
·   RGB-D 카메라로부터 실험자의 관절 좌표 (joint coordinate) 데이터를 획득
·   관절 좌표 데이터는 추정으로 인한 불확실성,(uncertainty), 시점 변화(view variant), 폐색(occlusion), 자기 폐색(self-occlusion), 조명 여건 등의 문제를 내포함

Approach

·   양 팔의 관절 위치 (joint position) 정보를 이용한 제스처를 인식
·   카메라의 시점 변화 문제를 고려하여 관절의 위치(position) 정보를 각도(angle) 정보로 특징 변환(feature transform)
·   제스처의 시간에 따른 순차성 및 관절 좌표 데이터의 불확실성을 고려하여 확률 그래프 모델(probabilistic graphical model)을 학습 모델로 사용

Application





▶ Activity Recognition with RGB-D Camera

Objective

·   관절 좌표(joint coordinate) 데이터로부터 실험자의 일상 행위를 인식하는 기술
·   RGB-D 카메라에서 추정된 관절 좌표 데이터는 추정의 불확실성(uncertainty), 시점 변화(view variant), 크기 변화(scale variant), 자기 폐색(self-occlusion)의 변화 등의 문제를 내포함
·   일상 생활에서 수행되는 행위들은 여러 개의 부속 행위(sub-activity)들의 반복으로 구성됨

Approach

·   관절 좌표 데이터가 가지는 시점 변화 문제를 해결하기 위해, 구면좌표계(spherical coordinate system)를 이용
·   관절 좌표 데이터가 가지는 크기 변화 문제를 해결하기 위해, 크기 정규화(scale normalization)을 적용
·   일상 행위들이 가지는 계층성(hierarchical)과 순차성(sequential)을 고려하여 모델 학습에 확률 그래프 모델(probabilistic graphical model) 사용

Application