본문 바로가기
일상생활/자격증

[자격증] 빅데이터 분석기사 합격 후기

by 바른 호랑이 2023. 7. 17.
728x90
반응형

※ 빅데이터 분석기사에 대하여 

 

데이터자격시험

대용량의 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석기술과 방법론을 기반으로 정형/비정형 대용량 데이터를 구축, 탐색, 분석하고 시각화를 수행하는 업

www.dataq.or.kr

※ 빅데이터 분석기사 필기 합격 후기

 

[자격증] 빅데이터 분석기사 필기 합격 후기

※ 빅데이터 분석기사에 대하여 데이터자격시험 대용량의 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석기술과 방법론을 기반으로 정형/비정형 대용량 데이

data-is-power.tistory.com

이번 글에서는 최근에 응시했던 제 6회 빅데이터 분석기사 시험에 대한 후기를 작성해보려고 한다. 필기는 이번 6회차가 아닌 5회차에 응시하여 합격하였고, 해당 내용과 관련해서 준비했던 내용 및 소감에 대해서는 이미 작성하여 업로드해놓은 상태이기에 해당 사항은 생략하고 글을 작성해보려고 한다. 준비기간이나 공부에 투자한 시간에 대해서 작성하는 것은 개인의 배경지식 및 환경의 차이가 각각 모두 상이하고, 이미 ADsP, 빅데이터 분석기사, 정보처리기사와 같은 데이터, IT관련 자격증을 1년 넘게 준비해오며 관련 분야에서 업무를 보고 있는 상황이기에 큰 의미가 없다고 생각하여 이와 관련된 부분도 생략하고 시험에 대한 부분과 소감에 대해서만 작성을 해볼 예정이다. 5, 6회차를 모두 응시해보았기에 2개의 시험을 보면서 느꼇던 점과 차이점 위주로 이야기해보려 한다. 1회 차이밖에 안난다고 생각할 수도 있지만 6회차부터는 과거의 시험들과는 3개 유형 중 1개 유형이 완전히 바뀐 형태로 시험이 변경되었기에 2개의 시험을 모두 응시해본 입장에서 꽤나 느끼는 바가 있었으며, 이를 3개의 맥락에서 이야기해보려한다.

우선 첫번째로 이야기할 부분은 문제유형의 변화이다. 5회차와 6회차의 가장 큰 차이단답식 서술형으로 출제되던 제 1유형이 사라지고, z-검정, t-test와 같은 통계분석 파트가 추가되었다는 부분인데, 2개의 시험 방식에 각각의 일장일단이 있다고 생각하기에 어떤 것이 더 유용한가에 대해서는 사람마다 생각을 다를 수 있을 것이라 생각한다. 개인적으로는 이론적인 부분은 필기시험이라는 부분에서 이미 테스트를 하고 있기에 이론 및 지식에 대한 검증을 강화하고 싶다면 필기시험의 문제수를 더 늘리거나 합격선을 올린다던지하는 방식으로 난이도를 올리는 방향으로 진행하고, 실기에서는 실제 코딩을 통해 문제를 해결하는 능력을 함양하였는가를 검증하는 것이 더 바람직한 방향이라고 생각하기에 이번 시험 유형의 변화는 긍정적이라고 생각한다. 2개의 시험 모두 기본적인 데이터 처리를 할 수 있는가를 묻는 제 1유형(과거 2유형)과 ML Model을 활용하여 데이터 분석을 진행할 수 있는가를 묻는 제 2유형(과거 3유형)은 그대로 유지가 된데다가 5, 6회차의 해당 유형들의 난이도를 비교했을 때 거의 대동소이하다고 느껴졌기에 난이도 자체는 5, 6회차가 비슷하게 느껴졌다. 다만 제 1,2 유형이 이미 관련 자료들이 많이 공유되어 있고, 시험과 굉장히 유사한 문제들도 많이 퍼져있는 것과는 다르게 제 3유형은 아직 이와 같은 부분은 미비하여 준비하기가 더 어려워지지 않았나라는 생각이 들기도 하지만, 이 문제는 차차 회차가 흐를 수록 희석될 것이기 때문에 큰 문제라 생각하지는 않으며, 어차피 데이터 분석을 하기 위해서는 통계적인 지식은 필수적으로 함양이 되어야하기에 해당 자격증을 준비하는 사람들한테는 좋은 공부를 할 수 있는 계기가 될 수 있을 거라 생각한다. 이와 관련하여 이번 실기 준비에 도움된 사이트를 공유하니 시험을 준비하는 사람들한테 도움이 되면 좋겠다.

※ 실기 준비시 유용한 사이트

 

Big Data Certification KR

빅데이터 분석기사 실기 (Python, R tutorial code)

www.kaggle.com

두번째로 이야기할 부분은 시험준비방법에 대한 부분이다. 문제 유형의 변화와는 상관없이 사실 제 1, 2유형을 잘 처리하면 시험 통과에는 무리가 없을 것으로 생각하는데, 이는 2개 유형의 배점만으로도 합격기준인 60점보다 10점 높은 70점을 받을 수 있기 때문이다. 특히 2유형(과거 3유형)은 이미 정형화가 많이 되어 있어서 정해진 공식대로만 풀어도 고득점이 가능하니 해당 파트는 반드시 맞춘다는 생각으로 가는게 좋다고 생각한다. 5회차에서는 회귀문제가 6회차에서는 분류문제가 출제되었는데 기본적으로 앙상블 모델을 사용하는 것을 추천하고 있기에, 회귀와 분류가 모두 가능한 모델인 RandomForest모델만 잘 활용하기만 해도 고득점이 가능하다. 물론 추가적인 데이터 전처리 및 하이퍼 파라미터 조정이 들어가면 더 좋기는 하겠지만, 해당부분은 라벨 인코딩이나 기초적인 훈련, 검증 데이터 분할만 적용해도 충분히 해결이 가능한 부분이기에 큰 문제가 되지는 않는 듯 하다. 이번 시험에서 RandomForest 모델을 사용하고, 라벨인코딩과 훈련, 검증 데이터 분할정도만 적용하여 문제를 해결하였는데 높은 점수를 받은 것으로 보아 향후에 문제 유형이나 난이도가 크게 변화하지 않는 이상 해당 내용대로 진행하면 큰 문제없이 점수를 얻을 수 있을 것이라 생각한다.

마지막으로 이야기할 부분은 시험현장에서 사용할 수 있는 팁과 관련된 부분이다. 사실 분석을 진행하며 모든 라이브러리와 메소드, 함수를 숙달하여 따로 참고할 문서가 없이도 코딩을 할 수 있는게 제일 좋다고 생각하지만, 시험현장에 들어가서 시험을 보다보면 대소문자 구분 및 명칭이 헷갈릴 때가 있을 수 있다. 그럴 때를 대비하여 시험을 준비할 때 구글링을 통해 해결하기 전에 help(), dir(), __dir__()와 같은 명령어들로 처리하려는 시도를 해보면서 최대한 해당 명령어들의 사용법들을 익혀두는 것이 좋다고 생각한다. 다만 시험 현장에서 사용하는 환경에서 help()명령어 사용시 내용 중 일부가 잘려나올 수 있기에 help()와 dir() 조합하여 사용하는 방법까지도 익혀두면 좋다고 생각한다.

이번 6회차는 시험유형이 바뀌어서 그런지 사전 공지해주는 패키지목록에서 statsmodels 모델이 누락되어 문제가 되는 등 이런저런 일들이 있었던 시험이었다. 그럼에도 불구하고 위의 내용을 참고하여 적절히 준비한 결과 좋은 점수로 합격을 할 수 있었다. 준비를 하면서 많은 것들을 배우고 숙달할 수 있었지만, 그 과정에서 부족한 부분들을 더 많이 발견하게 되어 많은 것을 느낄 수 있던 시간이었다. 마지막으로 어제보다 더 나은 오늘을 위해 노력하는 모든 분들에게 행운이 따르기를 바라며 글을 마친다.

728x90
반응형

댓글