본문 바로가기
Paper Review

[Paper Review] Deep Learning (Yann LeCun, Yoshua Bengio & Geoffrey Hinton) 논문 리뷰 1

by 배써니 2024. 2. 12.

 

본 논문의 원문파일입니다.

publication at: https://www.researchgate.net/publication/277411157_Deep_Learning

2015-lecun.pdf
2.04MB

 

 

[필독사항]

1. 논문의 저자는 딥러닝계에서 크게 이름을 알린 Yann LeCun 외 2인입니다.
    딥러닝에 처음 입문하시는 분들도 쉽게 이해할 수 있도록 딥러닝의 개괄적인 내용이 담겨있습니다. 


2. 본 논문 리뷰에서는, 원문에서 사용된 영어 표현을 최대한 기재하고자 하였습니다.
    이를 그냥 지나치지 마시고 원문의 표현을 이해하며 읽으신다면, 더욱 저자의 의도와 가까워질 수 있을 것입니다.


3. 논문 리뷰는 총 세차례에 걸쳐 진행되며, 문단 단위로 진행됩니다.
    전체적인 구조는 '[원문 해석] [요약] [이론 설명]' 다음과 같습니다.


4. 게시글을 읽고 이해가 되지 않는 부분이 있다면 댓글 기능을 활용하여 질문을 하시거나, 관련 이론 서칭을 추천드립니다.

 

 

 

전체 목차 중 이번 게시글에서 다룰 부분은 아래와 같습니다.

  [CONTENT]
- Abstract
- Introduction
- Supervised learning
- Backpropagation to train multilayer architectures 
- Convolutional neural networks
- Image understanding with deep convolutional networks
- Distributed representations and language processing
- Recurrent neural networks
- The future of deep learning.

 


Abstract

딥러닝은 다중 처리 계층(multiple processing layers)으로 구성된 계산모델(computational model)을 통해 데이터의 추상화된 여러 표현을 학습할 수 있다. 이러한 방법은 음성 인식, 시각적 객체 인식, 객체 탐지, 그리고 약물 발견이나 유전체학과 같은 많은 분야에서 최첨단 기술을 크게 향상시켰다. 딥러닝은 방대한 데이터 세트에서 복잡한 구조를 발견하는데, 이전 계층의 표현(representation)을 사용하여 각 계층에서의 표현을 계산하는 데에 사용되는 기계의 내부 매개 변수(internal parameters)를 어떻게 변경해야 하는지를 나타내는 역전파 알고리즘(Backpropagation algorithm)을 사용한다. 딥 컨볼루션 네트워크(Deep Convolutional nets)는 이미지, 비디오, 음성 및 오디오 처리 분야에서의 획기적이었으며, 반복 신경망(Recurrent nets)은 텍스트와 음성과 같은 순차 데이터 분야에서 빛을 발했다.

 

딥러닝의 핵심적인 단어가 여럿 언급되었다. 

 

"다중 처리 계층(multiple processing layers)",

"추상화된 표현(representation)", 

"역전파 알고리즘(Backpropagation algorithm)",

"딥 컨볼루셔널 네트워크(Deep Convolutional nets)",

"반복 신경망(Recurrent nets)"

 

이 단어들은 본 논문에서 구체적으로 다룰 핵심이며, 논문 전체를 정독한 뒤에 Abstract를 다시 읽어보는 걸 추천한다.

 

 

Introduction

머신러닝(Machine-learning) 기술은 현대 사회에서 여러 측면의 동력이 된다. 웹 검색부터 소셜 네트워크에서의 콘텐츠 기반 필터링, 전자 상거래 웹사이트에서의 추천까지 다양한 곳에서 사용된다. 또한 카메라와 스마트폰과 같은 소비자 제품에서도 점점 더 중요한 역할을 하고 있. 머신러닝 시스템은 이미지에서 객체를 식별하고, 음성을 텍스트로 변환하며, 뉴스 항목이나 게시물 혹은 제품들을 사용자의 관심사에 맞추고 검색 결과를 선택하는 데 사용된다. 이러한 프로그램은 점차 딥러닝(deep learning)이라고 불리는 기술 클래스를 활용한다.

 ▶  머신러닝과 딥러닝이 일상생활 속의 다양한 분야에서 활용되고 있다.

 

 

기존의 머신러닝 기술은 자연 데이터(natural data)를 그대로 처리(in therir raw form)하는 데 제한이 있었다. 수십 년 동안 패턴 인식이나 머신러닝 시스템을 구축하는 것은 주로 공학적인 접근과 상당한 도메인 전문 지식이 필요했다. 이는 원시 데이터(raw data)(예: 이미지의 픽셀 값)를 적절한 내부 표현(internal representation)으로 변환하거나, 특징 벡터(feature vector)로 변환하는 특징 추출기(feature extractor)를 설계하기 위한 것이었다. 이후 학습 서브시스템(일반적으로 분류기(classifier))이 입력에서 패턴을 감지하거나 분류할 수 있는 형태로 변환하는 것이 필요했다.

▶ 기존의 머신러닝으로 원시 데이터를 변환하거나 특징 추출기를 설계하기 위해서는

상당한 전문 지식이 필요하다. (한계점이 존재)

 

표현학습(representation learning)이란 기계에 원시 데이터(raw data)를 제공하고, 감지나 분류에 필요한 representation을 자동으로 발견하도록 하는 방식이다. 딥러닝은 여러 단계의 representation을 가진 표현학습 방식을 취한다. 각 단계별 representation은 간단하지만 비선형 모듈로 구성되어 있으며, 각 모듈은 입력에서부터 점점 더 추상적인 representation으로 변환된다. 이런 식의 많은 변환들을 조합하면 매우 복잡한 함수를 학습할 수 있다. 분류 작업의 경우, 상위 레이어의 representation에서는 식별에 중요한 인풋을 강조하고, 식별 무관한 변수들은 숨긴다.
예를 들어 이미지는 픽셀 값의 배열로 제공되며, representation의 첫 번째 레이어에서 학습된 피처들은 이미지의 특정 방향과 위치에 있는 edge들의 존재나 부재를 나타낸다. 두 번째 레이어는 보통 edge의 특정 배치를 찾아 motif를 탐지하며, edge 위치의 작은 변동들에도 불구하고 이를 감지한다. 세 번째 레이어는 motif를 유사한 객체의 일부에 상응하는 더 큰 조합으로 합칠(ensemble) 수 있으며, 이후 계층에서는 이러한 부분의 조합으로 객체를 탐지한다. 딥러닝의 핵심은, 이러한 레이어들이 엔지니어에 의해 설계되지 않고 데이터를 사용하여 일반화된 목적의 학습 절차를 사용하여 학습된다는 것이다.

표현학습은 기계에 원시 데이터를 제공하고, 감지나 분류에 필요한 representation을 발견하도록 한다. 

edge의 존재/부재 파악 → edge의 배치를 기반으로 motif 탐지 → motif를 합쳐서 더 큰 조합 생성 → 객체 탐지

 

 

위 문단에서는 딥러닝의 중요한 구성요소 중 하나인 representation learning(표현학습)의 기본 원리에 대해 설명하고 있다.

 

Representation learning은 원시 데이터를 다른 형태로 변환하여 특징을 추출하고

데이터를 더 잘 처리할 수 있도록 의미있는 표현이나 특징을 자동으로 학습하는 과정을 의미한다.

 

쉽게 말해 원시 데이터(raw data)를 바로 사용하기보다는

데이터를 더 의미있고 유용한 형태로 표현(representation)하여 문제 해결을 더욱 용이하게 하는 방식이다.

 

여러 층의 layer로 구성된 딥러닝의 표현학습에서

초기 층은 입력 데이터의 낮은 수준의 특징을 표현하고

점점 상위의 층으로 갈수록 여러 특징들을 조합하여 높은 수준의 개념을 표현하게 된다.

이를 통해 복잡한 함수를 표현하고, 다양한 문제를 해결할 수 있게 되는 것이다.

 

 

 

 

이에 대한 예시로 언급한 것이 이미지 분류 작업에서의 edge와 motif의 개념이다. 

 

edge와 motif의 개념을 보다 쉽게 이해하기 위해서는

초등학교 과학 시간에 배웠던 동물의 구성단계에 대한 기억을 되짚어볼 필요가 있다.

세포가 모여 조직, 조직이 모여 기관, 기관이 모여 기관계, 그리고 기관계가 모여 하나의 개체를 구성한다는 내용을 공부한 적이 있을 것이다.

https://sciencelove.com/1423

 

 

표현학습에서의 edge와 motif 기본 구조도 이와 비슷하다.

 

이미지 데이터의 경우, edge는 이미지 내의 서로 다른 영역 간의 대비나 변화를 나타내는 역할을 한다. 

픽셀 별로 이미지의 윤곽을 구성하는 선의 존재(혹은 부재)를 감지하여 이미지의 구조를 이해하고 특징을 추출할 수 있다.

 

 

이후, edge를 기반으로 motif를 감지한다. 

이미지에서의 motif는 특정한 형태나 구조를 가진 반복적인 패턴을 지칭한다.

즉, 낮은 수준의 특징 표현인 edge가 모여 보다 높은 수준의 표현인 motif를 구성하는 것이다. 

필자의 형편없는 미술 실력에 양해를 구한다

 

 

이러한 과정의 핵심은

각 층에서의 representation이 데이터로부터 자동으로 학습된다는 것이다. 

즉, 사람이 직접 특징을 선택하거나 설계할 필요가 없고,

대량의 데이터를 사용하여 모델이 필요한 특징을 스스로 학습한다.

 

 

 

수년간, 딥러닝은 인공지능 커뮤니티의 시도들이 해결하지 못한 문제들을 해결하기 위해 진보하고 있다. 딥러닝은 고차원 데이터에서 복잡한 구조를 발견하는 데 매우 효과적이기 때문에 과학, 비즈니스 및 정부 등 다양한 분야에 적용할 수 있다. 이미지 인식 및 음성 인식에서 기록을 경신한 것은 물론이고, 잠재적 약물 분자의 활동을 예측하거나, 입자 가속기 데이터를 분석하며 뇌 회로를 재구성하고, 비번역 DNA의 돌연변이가 유전자 발현과 질병에 미치는 영향을 예측하는 데 다른 기계 학습 기술을 능가했다. 더 놀랍게도, 딥러닝은 자연어 이해 분야에서(특히 대주제 분류, 감정 분석, 질문 응답 및 언어 번역 등에서) 매우 유망한 결과를 얻었다. 

딥러닝은 고차원 데이터에서 복잡한 구졸르 발견하는 데에 매우 효과적이기 때문에

다양한 분야에서(특히 자연어 처리) 유용하게 사용되고 있다. 

 

 

우리는 딥러닝이 가까운 미래에 더 많은 성과를 이룰 것으로 기대한다. 왜냐하면 딥러닝은 수많은 계산이나 데이터 증가를 쉽게 활용할 수 있기 때문에, 직접 인지니어링을 할 일이 거의 없다. 현재 딥 신경망을 위해 개발되고 있는 새로운 학습 알고리즘이나 아키텍처는 이러한 진전을 가속화할 것이다.

 딥러닝의 미래 전망은 밝다.

 

 

 


 

 

이번 주차에는 본 논문의 도입부분만 가볍게 다뤄보았다.

다음 게시물에서는 딥러닝의 지도학습(Supervised Learning)과 역전파 알고리즘(Backpropagation Algorithm)에 대해 자세히 다룰 예정이다.