반응형
시간, 공간제약 없이 할 수 있는 부업을 찾던 중 알게 된 데이터라벨링인데요. 2급에 이어 일주일 간격으로 1급 AIDE 자격시험 공부하면서 복습한 내용을 토대로 정리해 봅니다. 자격증 취득을 위해 공부하고 있거나 관심있으신 분들은 참고하시면 좋을 거 같아요. 영어도 정확하게 알아두면 시험볼 때 도움이 됩니다.
데이터라벨링 자격증 1급 이론 정리
1급은 확실히 2급에 비해 난이도가 있네요. 2급은 20분 만에 풀었는데 1급은 40분이나 걸렸어요. 문제가 단답형이라기보다 용어에 대해 서술형으로 정확히 알아야 이게 답이다라는 것을 쉽게 풀 수 있어요.
용어가 무엇에 대한 설명인지를 잘 파악하고 있다면 답이 쉽게 눈에 들어올 거예요. 저는 2급처럼 문제 읽자마자 이게 답이지가 안 떠오르더라고요. 1급은 보기 보면서 긴가민가한 것들이 나와서 고민을 좀 하느라 시간이 걸렸어요. 그래도 아래 정리한 것들을 참고하셔서 눈에 익혀두면 도움 될 거예요.
1. 인공지능 방법론
- 4차 산업혁명 개념 : 4차 산업혁명은 <지능(AI)>과 <정보(빅데이터)>의 발전을 통한 산업혁명을 의미한다.
- 4차 산업혁명(21세기 초반~) : 인공지능, 빅데이터, 사물인터넷, 3D프린팅, 로봇, 공유경제, 드론
- 인공지능 서비스 개념 : 인공지능 서비스는 데이터 획득, <데이터가공(전처리)>, 모델생성, 실시간서비스(API)의 총 4단게로 구성된다.
- 데이터획득 : IoT, Mobile, M2M을 통한 데이터(이미지, 영상, 텍스트 등) 수집과정(M2M, Machine To Machine : 사물통신을 말하며 기계간의 통신으로 사람개입이 없는 무인과 지능화 서비스)
- 데이터가공(전처리) : 데이터라벨링, 구분·선별, 포맷변경, 결합, 변형 등
- 모델생성 : 모델개발 → 데이터입력 → 데이터학습 → 모델수정
- 머신러닝(Machine Learning)의 학습방법 : 머신러닝의 학습방법은 <지도> 학습, <비지도> 학습, <강화> 학습을 사용한다.
- 머신러닝 학습방법 : 지도학습(예측/분류), 비지도 학습(연관규칙/군집), 강화학습(보상)
- 지도학습 : 문제와 정답을 알려주고 학습하는 방법으로 분류, 회귀에 사용된다.
- 퍼셉트론(Perceptron) : 1957년 프랑크 로젠블라트가 고안한 알고리즘으로 딥러닝(신경망)의 기원이 되는 알고리즘.
- 인공신경망(ANN) : 생물학의 신경망에서 영감을 얻은 학습 알고리즘으로 입력층(input layer), 은닉층(hidden layer), 출력층(output layer)으로 구성된다.
- 딥러닝(Deep Learning) : 인공신경망을 기반으로 기계를 학습
- 인공지능(최종목적) > 머신러닝(스스로 학습) > 딥러닝(인공신경망으로 학습)
- 머신러닝과 딥러닝 차이점 : 머신러닝은 스스로 학습하며 사람이 직접 분석, 판단하기 때문에 사람개입이 필요하다. 반면에 딥러닝은 인간의 뉴런과 비슷한 인공신경망으로 학습하기 때문에 기계가 자동으로 학습한다. 즉, 기계의 자기 학습 여부이다.
2. 인공지능과 빅데이터
- 초기 빅데이터의 특징 : 빅데이터의 3V는 <규모(Volume)>, <속도(Velocity)>, <다양성(Variety)>의 특징을 갖고 있다.
- 3V : 규모(Volume), 속도(Velocity), 다양성(Variety)
- 다양성(정형데이터, 반정형 데이터, 비정형데이터)
- 정확성(4V) : Veracity
- 가치(5V) : Value
- 3V : 규모(Volume), 속도(Velocity), 다양성(Variety)
- 빅데이터 사용방법 : <API>란 보유한 데이터 프로그램을 허가받아 각자의 <인증키>로 사용할 수 있도록 사용하는 방식이다.
- API(Application Programming Interface) : 누군가 만든 프로그램을 쉽게 사용하도록 구성한 프로그램으로 인공지능과 빅데이터에서 보편적으로 사용하는 방식이다.
- 데이터 수집 방법 : 인터넷의 방대한 데이터를 우리가 분석하고 활용하기 쉽게 데이터를 수집하는 행위를 <크롤링, Crawling>이라고 한다.
- 데이터라벨링(Data labeling) : 사람이 만드는 사진, 문서 등 데이터를 가공하여 인공지능이 스스로 학습할 수 있는 형태로 가공하는 작업을 말한다.
- 데이터셋(Data set) :인공지능 학습을 위해 필요한 데이터를 관련성 있게 모아놓은 자료의 집합(원천데이터 + 라벨링 데이터)
3. 인공지능 알고리즘 I
- 딥러닝의 동작원리 : 딥러닝 학습을 위하여 데이터는 <훈련, train> 데이터와 <평가, test> 데이터로 분류하여 사용한다.
- 훈련(fit) : 반복적인 학습(epochs)을 통하여 손실(loss)을 줄이고 정확도(accuracy)를 높인다.
- 예측(predict) : 시험 셋(test) 데이터를 이용하여 학습 결과를 예측한다.
- 최적의 값을 찾는 알고리즘 : 함수의 기울기를 구하여 경사의 절댓값이 낮은 쪽으로 계속이동시켜 극값에 이를 때까지 반복하는 것을 <경사하강법, Gradient descent>이라 한다.
- 경사하강법은 최적화(Optimization) 방법 중 하나이다.
- 옵티마이저(Optimizer) : 함수의 가장 낮은 값을 찾는 방법으로 현재 가장 많이 사용하는 옵티마이저는 Adam이다. (Mometum, AdaGrad, RMSProp, AdaDelta, Adam 등)
- 활성화 함수의 종류 : 활성화 함수는 입력된 데이터의 가중치의 합을 출력 신호로 변환하는 함수로 은닉층(Hidden Layer>에서 많이 사용되는 함수는 <ReLU>이다.
- 인공지능 개발과정 5단계
- 라이브러리 읽어 들이기
- 데이터를 읽어 들이고 전처리하기
- 신경망 만들기
- 모델 만들기(학습하기)
- 모델적용하기(예측하기)
- 심층 신경망(Deep Neural Network) : DNN
- 퍼셉트론은 입력값, 가중치, 입력총합, 활성화함수, 출력값으로 구성된다.
- 활성화 함수 : 입력된 데이터의 가중치 합을 출력신호로 변환하는 함수
- 활성화 함수 종류 : 시그모이드 함수(sigmoid) / 쌍곡석함수(Tanh) / 렐루함수(ReLU)
- 시그모이드 함수(sigmoid) - S자와 유사한 시그모이드 커브 형태로 대표적 Logistic 함수, 모든 실수 입력 값을 0보다 크고 1보다 작은 수로 변환하는 특징을 가진다.
- 쌍곡선함수(Tanh, Hyperbolic Tangent) : 함숫값을 -1과 1 사이의 실수로 제한하며 시그모이드 함수보다 효율성이 좋다. 경사하강법 사용 시 시그모이드 함수에서 발생하는 편향이동이 발생하지 않는다.
- 렐루함수(ReLU) : 은닉층(hidden Layer)에서 많이 사용되는 함수로 선형함수라고 한다. +/-가 반복되는 신호에서 -흐름을 차단하는 의미가 있다. 기울기 소실 문제가 발생하지 않아 많이 사용하는 함수이다.
- 손실함수(loss funcion) : 손실함수 값이 최소화 되도록 가중치와 편향을 찾는다.
4. 인공지능 알고리즘 II
- 인공지능 객체검출 : 학습을 통하여 여러 개의 객체를 인식하고 인식된 객체를 검출하는 것을 객체검출 <Object Detection>이라 한다.
- single object : 1개의 객체만 있는 경우(분류, Classification + 영역표시, Localization)
- 분류(Classification) : 인공지능은 데이터셋(데이터와 정답 레이블)을 함께 학습한 인공지능이 새로운 이미지를 식별하게 되는 과정, 학습되지 않은 Class는 인식하지 못한다.
- 영역표시(Localization) : 분류를 통하여 검출한 객체 정보가 있는 위치를 보기 쉽게 Box형태로 지정하는 것이다. 바운딩박스(Bounding box)는 학습을 통해 검출한 객체의 영역을 사각형으로 표시하는 것
- multi object : 1개 이상의 객체가 있는 경우
- 객체검출(Object Detection) : 학습을 통해 여러 개의 객체를 인식하고 그 객체를 바운딩박스와 색을 이용해 영역을 표시하는 과정, 여러 개의 객체를 찾아낼 때 사용하는 방식이다.
- 의미적 분할(Instance Segmentation) : 객체인식에서 이미지 내의 의미 있는 단위로 분할하는 작업을 말하며 이미지 영역별 의미를 부여할 때 사용하는 방식이다.
- single object : 1개의 객체만 있는 경우(분류, Classification + 영역표시, Localization)
- 합성곱 신경망(CNN) : CNN은 합성곱을 이용해 가중치수를 줄이는 방법으로 <Convolution> 과정과 <Pooling> 과정을 통해 진행된다.
- CNN은 이미지, 영상처리에 특화된 모델이다.
- 생성적 적대 신경망(GAN) : GAN은 생성자과 구분자가 서로 <경쟁, Adversarial>하며 데이터를 <생성, Generaive>하는 모델이다.
함께 알면 도움되는 정보↓↓↓
마치며
부업으로 관심이 높은 데이터라벨링 인공지능 데이터전문가(AIDE 1급)를 준비하면서 학습한 내용에 대해서 정리해 봤는데요. 데이터라벨러로 활동하기 위해 자격증 시험 준비하는 분들에게 도움이 되길 바랄게요.
반응형
'교육' 카테고리의 다른 글
('23년 3월) 데이터라벨링 AIED 2급 자격증 후기 (0) | 2023.03.16 |
---|---|
2023년 공립 온라인 학교 신설, 시범 지역 4군데 (0) | 2023.01.10 |
2023년 EBS 고교 학습 교재 무상으로 신청하는 방법 (0) | 2022.12.29 |
(교육부_책열매) 초등학교 아이 문해력 키우는 방법 진단 (1) | 2022.09.26 |
한국장학재단 직업계고 현장실습 지원금 신청 방법 (0) | 2022.08.31 |
댓글