3과목 데이터 분석 (문제)
[ADsP 정리4] ADsP 요약 공유(ADsP 3과목 요약 공유) (tistory.com)
[ADsP 정리4] ADsP 요약 공유(ADsP 3과목 요약 공유)
3과목 데이터 분석 1. 데이터 분석 기법의 이해 1) 데이터 처리 과정 ①데이터 분석을 위해서는 데이터웨어하우스(DW)나 데이터 마트(DM)을 통해 분석 데이터 구성 ②DW에 없는 데이터는 기존 운영
rud-study.tistory.com
척도구분
①비율척도: 절대적 기준인 0이 존재, 사칙연산 가능(무게/나이)
②구간척도: 온도, 지수
③순서척도: 서열관계(학년/등수)
④명목척도: 성명/성별
(문제) 다음 중 비율척도의 사례는? (답) ①
①무게/나이 ②성별 ③온도/지수 ④성적
2. 잔차분석
⤷잔차(Residual)의 선형성, 등분산성, 독립성, 정규성 등을 검토하는 과정
①독립성 ②정규성 ③등분산성
(문제) 잔차분석에서 만족해야하는 가정으로 맞는 것은? (답) 독립성, 등분산성, 정규성
3. 산점도를 통해 관찰해야 하는 자료의 특성
①선형인지 비선형인지 관계 확인
②이상점 존재
③데이터 분포 층화 여부
(문제) 산점도를 통해 관찰해야 하는 자료의 특징으로 부적절한 것은?
(답) 원인과 결과의 시간적 선후 관계 여부 (X)
4. 연관성 분석
⤷사건들 간의 규칙을 발견하기 위해 사용되는 대표적인 정형 데이터 마이닝 기법
①지지도: 전체 거래 항목 중에서 A와 B를 동시에 포함하는 거래의 비율
(식) A와 B가 동시에 포함된 거래수/전체 거래수
②신뢰도: A상품을 샀을 때 B상품을 살 조건부 확률
(식) A와 B가 동시에 포함된 거래 수/A를 포함하는 거래 수
③향상도: A와 B가 동시에 포함된 거래수/(A를 포함한 거래수) x (B를 포함한 거래수)
(문제) 전체 거래 중에서 품목 A와 B가 동시에 포함된 거래의 비중을 나타낸 지표는? (답) 지지도
(문제) 품목의 세분화가 많이 될수록 좋은 결과를 도출한다 (답) X
→지나친 세분화는 결과에 악영향을 줄 수 있다
5. 계층적 군집 연속형 거리 개념
1) 통계적거리
①표준화거리: 변수의 측정 단위를 표준화한 거리
②마할라노비스 거리: 변수의 표준화와 함께 변수 간 상관성을 동시에 고려한 통계적 거리
2) 수학적거리
①유클리드 거리: 두 점간 차를 제곱하여 모두 더한 값의 양의 제곱근
②맨해튼 거리: 시간거리라고도 불림. 두 점간 차의 절대값을 합한 값
③민코프스키 거리: M차원 민코프스키 공간에서의 거리
⦁M=1일 때 맨해튼 거리와 같음
⦁M=2일 때 유클리드 거리와 같음
6, 자기 조직화 지도(SOM)
①SOM: 알고리즘은 인공신경망 기반
: 차원 축소와 군집화를 동시에 수행할 수 있는 알고리즘
②은닉총을 보유한 다층신경망과 달리 은닉총이 없기 때문에 I개의 데이터를 입력받는 입력층과 이를 n개의 뉴런으로 표현하고자 하는 경쟁층으로 구성되어 있으며, 입력층의 모든 데이터는 경쟁층의 모든 노드와 연결
③고차원 데이터를 한눈에 파악하기 쉬운 저차원 공간에 정렬하여 나타내는 방법 중 하나
(문제) SOM은 입력층과 출력층 사이에 은닉총이 존재하여 효율적인 군집화가 가능하다 (X)
7. 군집분석
①군집의 개수나 구조에 대한 가정 없이 데이터들 사이의 거리를 기준으로 군집화 유도
②각 개체들 사이의 유사성 측정하여 분류
③실루엣: 군집분석의 품질을 정량적으로 평가하는 대표적인 지표 → 1에 가까울수록 완벽하게 분리되었다고 판단
(문제) 군집분석 후 결과 판단을 위해 오분류포 활용 (X)
→ 실루엣 활용
(문제) 군집의 크기가 작을수록 추정이 쉽다 (X) → 군집의 크기가 작으면 추정이 어렵다
④계층적 군집분석: 한번 군집이 형성되면 군집이 이동하지 않음, 이것이 비계층적 군집분석과 다른점
⑤병합적 군집분석: n개의 관측값을 하나의 군집으로 간주, 관측값의 특성이 가까운 군집끼리 순차적으로 합해가는 방법‘
(문제) 군집수를 미리 지정하지 않으며, 탐색적 기법에 적합한 군집 방법은?
(답) 계층적 군집
8. 공분산
①정의: ‘분산’이라는 개념응 확장하여 두 개의 ‘확률 변수’의 흩어진 정도를 표현한 것
②공분산이 어느 정도인지, 어느 정도의 상관성을 갖는지가 중요함
③공분산이 시계열 분석에서 중요한 이유는 바로 시계열 자료의 자기 상관성 때문임
9. 홀드아웃
①전체 데이터를 학습 데이터와 테스트 데이터 두 셋으로 나누는 방법
→학습 데이터 80%, 테스트 데이터 20%
②릿지: 2L Penalty 활용, 0에 가깝게 가중치를 만든다
③라쏘: 가중치들의 절대값의 합을 최소화하는 것을 제약조건으로 추가한다
④엘라스틱넷: 가중치의 절대값의 합과 제곱합을 동시에 제약조건으로 갖는 모형
10. Lasso 회귀 모형
①과적합: 모델이 학습 데이터를 과하게 학습하는 것
②과적합이 되면 일반화 성능이 낮아짐
③이를 해결하기 위해 정규화 선형회귀
④회귀분석에서 과적합시 계수의 크기도 과하게 증가하는 경향이 있어, 이를 방지하기 위해 계수의 크기를 제한하는 정규화 선형회귀 시행
⤷정규화 선형회귀: 릿지, 라쏘, 엘라스틱넷 모형
'자격증 공부 > ADsP(데이터분석준전문가)' 카테고리의 다른 글
[ADsP] ADsP 시험 합격 후기/ADsP 독학/ADsP 공부법 (77) | 2023.11.19 |
---|---|
[ADsP 요약] ADsP 요약 공유(ADsP 3과목 요약 공유) (42) | 2023.11.04 |
[ADsP 요약] ADsP 요약 공유(ADsP 2과목 요약 공유) (57) | 2023.10.30 |
[ADsP 요약] ADSP 요약 공유(ADSP 1과목 요약 공유) (42) | 2023.10.29 |
[ADsP 요약] ADSP 요약 공유(ADSP 1과목 요약 공유) (39) | 2023.10.29 |