머신러닝 데이터 관리

2020-12-31

데이터의 종류

머신 러닝에서 문제 유형에 따라 사용하는 데이터가 다르다. 데이터는 크게 형태에 따라 음성, 이미지, 텍스트로 나뉜다. 이중 텍스트 데이터의 예로 위키피디아 데이터가 있다.

데이터 균형

데이터 양이 많아도 다음 두가지 유형 중 하나의 문제에 속해 있다면 학습이 잘 진행 되지 않을 수 있다.

레이블링 편중 문제
적은 데이터 문제

레이블링 편중 문제는 데이터 레이블링이 특정 카테고리로 편중되어 학습이 잘 되지 않는 문제다. loss function에 의해 데이터 레이블링이 많이 되어 있는 분류로 편중되어 학습될 수 있다. 레이블링 편중의 해결법은 과소 표집 방식으로 데이터 레이블링이 많은 데이터의 레이블을 누락 시켜 데이터 균형을 맞추는 것이다. 적은 데이터 문제는 학습 데이터가 없어 학습이 되지 않는 문제다. 학습 데이터 유형이 이미지 라면 원샷러닝(one-shot learning) 또는 퓨샷 러닝(few-shot learning)등의 알고리즘을 적용해 보완이 가능하다. 만약 학습 데이터가 텍스트 라면 사전 학습된 모델을 활용해 학습을 진행하는 전이 학습(transfer learning)을 활용해 데이터 부족 문제를 보완할 수 있다.

데이터 표준화

데이터 레이블링을 보다 원할히 수행하려면 수치, 카테고리와 같은 데이터를 표준화할 필요가 있다. 예를 들어 150cm 와 1.5미터는 150cm로 표준화한다. 예를 들어 성별을 카테고리 하면 1,2로 구분해 카테고리를 표준화 할 수 있다.