본문 바로가기

데이터사이언스/deep learning

(2)
Vid2Seq 논문 정리 (1) 대부분의 동영상에는 이벤트가 포함된다. '달리기를 하는 여자'와 '박수를 치는 사람들'을 예로 들 수 있다. Video captioning은 동영상을 설명하는 한 줄의 설명을 생성하는 것이지만, Dense Video captioning은 비디오에서 모든 이벤트를 감지하고 설명하며, 시간대를 식별하는 작업을 포함한다. 이는 영상의 길이가 증가할 수록 훨씬 어려워지는 작업이다. 기존 방식은 대부분 이벤트의 시간대를 찾은 뒤 캡셔닝하는 2단계의 접근 방식을 사용한다. 시간대를 찾는 것과 캡셔닝의 상호관계를 활용하기 위해, 일부 방식은 두 task를 동시에 푸는 모델을 사용한다, 하지만, 이런 방식은 주로 envent counter 같은 task-specific한 구성 요소가 필요하다. 더 나아가, 이 방식들은..
NAS(network architecture search) 개념과 주요 논문 소개 1. NAS란? 딥러닝은 layer나 parameter의 개수를 비롯한 모델 구조에 따라 모델의 성능이 달라진다. task와 data 마다 최적의 구조가 다르기 때문에 주어진 상황에서 어떤 모델을 사용할지 결정하는 것은 어려운 문제다. 이런 문제를 해결하기 위해 주어진 상황에서 최적 모델 구조를 찾는 방법이 Network Architecture Search이다. NAS는 위 그림처럼 3가지 요소로 구성되어 있다. 1) Search Space 알고리즘이 탐색을 수행하는 space이다. layer 수, 각 layer가 수행하는 operation(convolution, fully-connected 등), 각 opration의 hyperparameter(filter 수, kernel size), operatio..