본문으로 바로가기

데이터 시각화 이해하기

 

시각화가 중요한 이유

  • 분석 결과를 빠르게 이해해 제품 개선점 쉽게 발견 가능
  • 분석결과 빠르게 공유 가능

 

시각화 목적

  • 종류와 중요도에 맞게 적절한 표현법 사용해야 함

 

주의사항

  • 데이터 특성에 맞는 적당한 시각화 선택
  • 좋은 색상과 디자인 보다 원하는 정보가 직관적으로 전달되는지 확인
  • 많은 데이터를 담는것 보다 핵심 지표를 잘 보이게 하는 것이 중요함

 

파이썬

 

파이썬의 특징

  • 스크립트 언어(Script language)
  • 동적 타이핑(Dynamic typing)
  • 플랫폼 독립적(Platform-independent)

 

파이썬의 장점

  • 간결하고 쉬운 문법
  • 빠른 개발 속도
  • 높은 확장성 및 이식성
  • 활발한 생태계

 

데이터 분석을 하기 위해 알아야 할 것

  • Pandas, NumPy ; 데이터를 다루고 기본적인 분석을 진행하는데 사용하는 라이브러리
  • Matplorlib, Seaborn ; 파이썬을 사용해 시각화를 구성할 수 있는 라이브러리
  • scikit-learn ; 간단한 머신러닝 알고리즘을 구현할 수 있는 라이브러리

 

머신러닝과 인공지능

 

머신러닝
“기계가 데이터를 학습해 스스로 처리 성능을 개선하는 알고리즘”

  • 지도 학습
  • 비지도 학습

 


 

데이터 가공

 

데이터 베이스를 쉽게 구현하게 해주는 서비스 – 구글 빅쿼리(Big Query)

  • Google Cloud에서 돌아가는 데이터 웨어 하우스
  • 빅쿼리에 저장한 후 SQL  사용 가능
  • Data Engineering을 몰라도 DB를 구성해 SQL 사용 가능

 

데이터를 무료로 구할 수 있는 사이트

  • Kaggle ; 공개 데이터를 바탕으로 데이터 분석을 연습해 보고 서로 공유하는 포럼 형식의 사이트
  • Dacon ; 캐글과 유사한 형태의 국내 사이트
  • 공공데이터포털 ; 국가에서 제공하는 무료 데이터 포털 사이트로써, 주로 공공정보 관련 데이터를 제공

 

데이터 분석 포트폴리오를 만드는 4가지 방법

  • 엑셀을 사용한 분석
  • 빅쿼리 & SQL을 사용한 분석
  • 데이터 시각화 도구를 사용해 분석
  • Python과 라이브러리를 사용해 분석

참고

 

머신러닝에 대해 무료로 학습할 수 있는 사이트
https://www.coursera.org/learn/machine-learning

머신러닝에 대해 쉽게 학습할 수 있는 사이트
https://teachablemachine.withgoogle.com/


 

Kaggle 이나 Dacon 같은 무료로 데이터를 얻을 수 있는 사이트에서 데이터 시각화 연습해보도록 합시다.

  1. Kaggle 이나 Dacon 에 접속하여 본인이 선정한 프로덕트와 가장 유사한 데이터를 찾습니다. (없거나 2의 조건을 만족하지 않는 경우, 다른 데이터를 선정해도 무방합니다)
  2. 해당 데이터 파일을 다운 받아 직접 확인해봅니다. (csv 형식 추천을 추천하며, 파일 개수는 1~2개가 적합합니다) (csv 파일은 Excel 에서 열 수 있습니다)
  3. 확인한 데이터에서 어떤 추측과 가설이 가능한지 확인하고 가설을 3개 이상 설정합니다.
  4. 본인이 세운 가설을 확인할 수 있도록 데이터를 확인하고 시각화합니다.
  5. 본인이 세운 가설과 실제 결과를 비교합니다.
  6. (선택) 본인이 세운 가설이 왜 결과와 일치 또는 불일치하는 결과가 나왔는지 검색 또는 분석해봅니다.

예시 : 저는 Kaggle 에서 Netflix Movies and TV Shows Listings of movies and tv shows on Netflix - Regularly Updated 데이터를 확인했습니다. 제가 세운 가설은 어린이 프로그램 (시청 연령 제한 12세 이하)이 성인 프로그램 (시청 연령 15세 이상, 19세 이상) 프로그램보다 'duration' 이 짧을 거라고 가설을 세웠습니다. 이유는 어린이들이 성인보다 동영상 시청에 대한 집중력이 낮을거라고 생각을 했기 때문입니다. 데이터 안정화를 위해 Season 을 가진 프로그램은 데이터에서 제외했습니다.. 실제 데이터를 확인한 결과, 어린이 프로그램과 성인 프로그램의 'duration' 은 별 반 차이가 없었습니다. (어린이 프로그램 duraion 평균 값과 성인 프로그램 duration 평균 값을 막대 그래프로 비교) 이는 넷플릭스라는 플랫폼의 특성 상 성인 또한 가볍고 짧은 시간 동안 볼 수 있는 프로그램을 선호하기 때문이라고 기사를 통해 알 수 있었습니다. (기사 첨부)