본문 바로가기
자격증 공부/ADsP(데이터분석준전문가)

[ADsP 요약] ADsP 요약 공유(ADsP 3과목 요약 공유2)

by 졸꾸러기 2023. 11. 5.

3과목 데이터 분석 (문제)

[ADsP 정리4] ADsP 요약 공유(ADsP 3과목 요약 공유) (tistory.com)

 

[ADsP 정리4] ADsP 요약 공유(ADsP 3과목 요약 공유)

3과목 데이터 분석 1. 데이터 분석 기법의 이해 1) 데이터 처리 과정 ①데이터 분석을 위해서는 데이터웨어하우스(DW)나 데이터 마트(DM)을 통해 분석 데이터 구성 ②DW에 없는 데이터는 기존 운영

rud-study.tistory.com

 

척도구분

비율척도: 절대적 기준인 0이 존재, 사칙연산 가능(무게/나이)

구간척도: 온도, 지수

순서척도: 서열관계(학년/등수)

명목척도: 성명/성별

(문제) 다음 중 비율척도의 사례는? ()

무게/나이 성별 온도/지수 성적

 

2. 잔차분석

잔차(Residual)의 선형성, 등분산성, 독립성, 정규성 등을 검토하는 과정

독립성 정규성 등분산성

(문제) 잔차분석에서 만족해야하는 가정으로 맞는 것은? () 독립성, 등분산성, 정규성

 

3. 산점도를 통해 관찰해야 하는 자료의 특성

선형인지 비선형인지 관계 확인

이상점 존재

데이터 분포 층화 여부

(문제) 산점도를 통해 관찰해야 하는 자료의 특징으로 부적절한 것은?

() 원인과 결과의 시간적 선후 관계 여부 (X)

 

4. 연관성 분석

사건들 간의 규칙을 발견하기 위해 사용되는 대표적인 정형 데이터 마이닝 기법

지지도: 전체 거래 항목 중에서 AB를 동시에 포함하는 거래의 비율

() AB가 동시에 포함된 거래수/전체 거래수

신뢰도: A상품을 샀을 때 B상품을 살 조건부 확률

() AB가 동시에 포함된 거래 수/A를 포함하는 거래 수

향상도: AB가 동시에 포함된 거래수/(A를 포함한 거래수) x (B를 포함한 거래수)

(문제) 전체 거래 중에서 품목 AB가 동시에 포함된 거래의 비중을 나타낸 지표는? () 지지도

(문제) 품목의 세분화가 많이 될수록 좋은 결과를 도출한다 () X

지나친 세분화는 결과에 악영향을 줄 수 있다

 

5. 계층적 군집 연속형 거리 개념

1) 통계적거리

표준화거리: 변수의 측정 단위를 표준화한 거리

마할라노비스 거리: 변수의 표준화와 함께 변수 간 상관성을 동시에 고려한 통계적 거리

2) 수학적거리

유클리드 거리: 두 점간 차를 제곱하여 모두 더한 값의 양의 제곱근

맨해튼 거리: 시간거리라고도 불림. 두 점간 차의 절대값을 합한 값

민코프스키 거리: M차원 민코프스키 공간에서의 거리

M=1일 때 맨해튼 거리와 같음

M=2일 때 유클리드 거리와 같음

 

6, 자기 조직화 지도(SOM)

SOM: 알고리즘은 인공신경망 기반

: 차원 축소와 군집화를 동시에 수행할 수 있는 알고리즘

은닉총을 보유한 다층신경망과 달리 은닉총이 없기 때문에 I개의 데이터를 입력받는 입력층과 이를 n개의 뉴런으로 표현하고자 하는 경쟁층으로 구성되어 있으며, 입력층의 모든 데이터는 경쟁층의 모든 노드와 연결

고차원 데이터를 한눈에 파악하기 쉬운 저차원 공간에 정렬하여 나타내는 방법 중 하나

(문제) SOM은 입력층과 출력층 사이에 은닉총이 존재하여 효율적인 군집화가 가능하다 (X)

 

7. 군집분석

군집의 개수나 구조에 대한 가정 없이 데이터들 사이의 거리를 기준으로 군집화 유도

각 개체들 사이의 유사성 측정하여 분류

실루엣: 군집분석의 품질을 정량적으로 평가하는 대표적인 지표 1에 가까울수록 완벽하게 분리되었다고 판단

(문제) 군집분석 후 결과 판단을 위해 오분류포 활용 (X)

실루엣 활용

(문제) 군집의 크기가 작을수록 추정이 쉽다 (X) 군집의 크기가 작으면 추정이 어렵다

계층적 군집분석: 한번 군집이 형성되면 군집이 이동하지 않음, 이것이 비계층적 군집분석과 다른점

병합적 군집분석: n개의 관측값을 하나의 군집으로 간주, 관측값의 특성이 가까운 군집끼리 순차적으로 합해가는 방법

(문제) 군집수를 미리 지정하지 않으며, 탐색적 기법에 적합한 군집 방법은?

() 계층적 군집

 

8. 공분산

정의: ‘분산이라는 개념응 확장하여 두 개의 확률 변수의 흩어진 정도를 표현한 것

공분산이 어느 정도인지, 어느 정도의 상관성을 갖는지가 중요함

공분산이 시계열 분석에서 중요한 이유는 바로 시계열 자료의 자기 상관성 때문임

 

9. 홀드아웃

전체 데이터를 학습 데이터와 테스트 데이터 두 셋으로 나누는 방법

학습 데이터 80%, 테스트 데이터 20%

릿지: 2L Penalty 활용, 0에 가깝게 가중치를 만든다

라쏘: 가중치들의 절대값의 합을 최소화하는 것을 제약조건으로 추가한다

엘라스틱넷: 가중치의 절대값의 합과 제곱합을 동시에 제약조건으로 갖는 모형

10. Lasso 회귀 모형

과적합: 모델이 학습 데이터를 과하게 학습하는 것

과적합이 되면 일반화 성능이 낮아짐

이를 해결하기 위해 정규화 선형회귀

회귀분석에서 과적합시 계수의 크기도 과하게 증가하는 경향이 있어, 이를 방지하기 위해 계수의 크기를 제한하는 규화 선형회귀 시행

정규화 선형회귀: 릿지, 라쏘, 엘라스틱넷 모형