자연어처리/머신러닝 용어집

본 문서는 자연어처리/머신러닝 용어 목록을 소개합니다.

  • Auto ML(Automated machine learning)

  • Auto Regressive

    • AR(순차적인 데이터 처리)
    • 이러한 관점에서 ELmo, GPT를 AR 계열로 볼 수 있음
  • BERT

    • 양방향 언어 모델
    • 구글 브레인이 개발한 트랜스 포머 기반의 모델. 페이스북은 RoBERTa라는 새로운 알고리즘을 개발했다.
  • Bootstrapping

    • 부스팅이라고도 불림, 샘플 데이터에서 랜덤 샘플링해 학습셋을 늘리는 방법으로, 정규 분포 성질을 가정함
    • 크기가 동일한 n개의 샘플셋으로 구성함
  • CTRL

    • GPT-2보다 약간 더 큰 알고리즘으로, 글 스타일을 제어 가능
  • ELMo(Embeddings from Language Model)

    • 2018년에 제안된 모델, 사전 훈련 언어 모델을 이용
    • 문맥을 고려해 임베딩(Contextualized Word Embedding)
      • 순방향, 역방향 RNN의 언어 모두를 고려한 biLM(Bidirectional Language Model)을 이용함
  • Fine tuning

    • 프리트레인으로 공통 도메인 학습 후 파인 튜닝을 통해 다운스트림 태스크 맞게 데이터 추가 하여 파라미터를 미세 조정해 업데이트 하는 방법
    • 출력 층에 새로운 레이어를 추가, SGD(Stochastic gradient descent)를 수행함
  • GPT-2

    • 대규모 언어 모델(large-scale langugage model), 단방향 언어 모델, 자연어 생성분야에 주목 받는 모델
    • 오픈AI는 800만개의 웹 페이지에서 스랩된 15억개의 매개변수를 새로운 알고리즘으로 학습(GPT보다 Parameter와 데이터양이 10배 많아짐). 이 알고리즘을 이용해, 몇 문장에서 대부분 일관성 있는 몇 단락의 산문을 작성할 수 있게 되었다.
    • 파인튜닝 없이 Language modeling benchmark에서 SOTA(State Of The Art) 달성
  • Neural Network

    • ANN(Artificial Neural Network) : 사람의 뇌에서 영감을 얻은 알고리즘으로 이미지 인식, 신호 인식 및 데이터 마이닝, 기계번역 등에서 활용 할 수 있는 모델
    • CNN : CNN은 데이터의 특징을 추출하여 특징들의 패턴을 파악하는 구조입니다. 이 CNN 알고리즘은 Convolution과정과 Pooling과정을 통해 진행
    • RNN : RNN 알고리즘은 반복적이고 순차적인 데이터(Sequential data)학습에 특화된 인공신경망의 한 종류로써 내부의 순환구조가 들어있다는 특징이 있음
    • DNN : ANN기법의 여러문제가 해결되면서 모델 내 은닉층을 많이 늘려서 학습의 결과를 향상시키는 방법이 등장하였고 이를 DNN(Deep Neural Network)라고 합니다. 딥러닝이라 부르며, DNN은 은닉층을 2개이상 지닌 학습 방법을 뜻함
  • Outlier

    • 전체 데이터 패턴에서 비정상적으로 벗어난 값
  • Permutation Language Model

  • Random Forest

    • 배깅의 대표 알고리즘으로, 다수의 결정 트리로 부터 보팅 데이터 예측을 수행
  • Seq2Seq

    • 하나의 도메인(한국어 문장)에서 또 다른 도메인(영어 문장)의 변환 학습 모델
    • 언어 번역, 텍스트 요약, conversational model 등에 활용 가능
  • SGD(Stochastic gradient descent)

    • gradient descent로 이동시 마다 전체 데이터 중 일부 데이터를 사용해 사용함으로서 local optima 방지
  • Transformer Network

    • NIPS에 공개된 구글의 아키텍처로 GPT, BERT 등에서 사용됨
    • 트랜스포머 블록 상단에 피드 포워드 네트워크와 하단의 멀티헤드 어텐션으로 구성됨
      • 멀티헤드 어텐션은 Scaled Dot-Product Attention(문장내의 단어 쌍의 의미 관계 파악)을 N번 수행
      • 피드 포워드 네트워크는 입력을 받아, 가중치를 적용하여 출력으로 내보내는 네트워크
  • Vanishing Gradient

    • Vanishing Gradient Problem(기울기값이 사라지는 문제)는 인공신경망을 기울기값을 이용한 method(backpropagation)에서 발생하는 문제다.(sigmoid가 원인이 될 수 있음)
      • ReLu : linear함수인 sigmoid를 개선한 함수
  • Voting

    • 소프트보팅(soft voting) : k개의 분류기중 가장 큰 확률 값인 레이블을 선택하는 앙상블 방법
    • 하드보팅(hard voting) : k개의 분류기중 가장 많이 출력된 레이블을 선택하는 앙상블 방법
  • XLNET

    • XLNet은 구글(Yang et al., 2019)에서 발표한 아키텍처로 일부 데이터에 대해 BERT를 앞서는 성능을 보임
    • 트랜스포머 네트워크(Vaswani et al., 2017)를 개선한 Transformer XL(eXtra-Long)의 모델로, 기존 Transformer에 비해 좀더 넓은 Context를 볼 수 있게 됨
    • RNN(문장 레벨의 Recurrency를 고려함)