데이터 시각화 이해하기
시각화가 중요한 이유
- 분석 결과를 빠르게 이해해 제품 개선점 쉽게 발견 가능
- 분석결과 빠르게 공유 가능
시각화 목적
- 종류와 중요도에 맞게 적절한 표현법 사용해야 함
주의사항
- 데이터 특성에 맞는 적당한 시각화 선택
- 좋은 색상과 디자인 보다 원하는 정보가 직관적으로 전달되는지 확인
- 많은 데이터를 담는것 보다 핵심 지표를 잘 보이게 하는 것이 중요함
파이썬
파이썬의 특징
- 스크립트 언어(Script language)
- 동적 타이핑(Dynamic typing)
- 플랫폼 독립적(Platform-independent)
파이썬의 장점
- 간결하고 쉬운 문법
- 빠른 개발 속도
- 높은 확장성 및 이식성
- 활발한 생태계
데이터 분석을 하기 위해 알아야 할 것
- Pandas, NumPy ; 데이터를 다루고 기본적인 분석을 진행하는데 사용하는 라이브러리
- Matplorlib, Seaborn ; 파이썬을 사용해 시각화를 구성할 수 있는 라이브러리
- scikit-learn ; 간단한 머신러닝 알고리즘을 구현할 수 있는 라이브러리
머신러닝과 인공지능
머신러닝
“기계가 데이터를 학습해 스스로 처리 성능을 개선하는 알고리즘”
- 지도 학습
- 비지도 학습
데이터 가공
데이터 베이스를 쉽게 구현하게 해주는 서비스 – 구글 빅쿼리(Big Query)
- Google Cloud에서 돌아가는 데이터 웨어 하우스
- 빅쿼리에 저장한 후 SQL 사용 가능
- Data Engineering을 몰라도 DB를 구성해 SQL 사용 가능
데이터를 무료로 구할 수 있는 사이트
- Kaggle ; 공개 데이터를 바탕으로 데이터 분석을 연습해 보고 서로 공유하는 포럼 형식의 사이트
- Dacon ; 캐글과 유사한 형태의 국내 사이트
- 공공데이터포털 ; 국가에서 제공하는 무료 데이터 포털 사이트로써, 주로 공공정보 관련 데이터를 제공
데이터 분석 포트폴리오를 만드는 4가지 방법
- 엑셀을 사용한 분석
- 빅쿼리 & SQL을 사용한 분석
- 데이터 시각화 도구를 사용해 분석
- Python과 라이브러리를 사용해 분석
참고
머신러닝에 대해 무료로 학습할 수 있는 사이트
https://www.coursera.org/learn/machine-learning
머신러닝에 대해 쉽게 학습할 수 있는 사이트
https://teachablemachine.withgoogle.com/
Kaggle 이나 Dacon 같은 무료로 데이터를 얻을 수 있는 사이트에서 데이터 시각화 연습해보도록 합시다.
- Kaggle 이나 Dacon 에 접속하여 본인이 선정한 프로덕트와 가장 유사한 데이터를 찾습니다. (없거나 2의 조건을 만족하지 않는 경우, 다른 데이터를 선정해도 무방합니다)
- 해당 데이터 파일을 다운 받아 직접 확인해봅니다. (csv 형식 추천을 추천하며, 파일 개수는 1~2개가 적합합니다) (csv 파일은 Excel 에서 열 수 있습니다)
- 확인한 데이터에서 어떤 추측과 가설이 가능한지 확인하고 가설을 3개 이상 설정합니다.
- 본인이 세운 가설을 확인할 수 있도록 데이터를 확인하고 시각화합니다.
- 본인이 세운 가설과 실제 결과를 비교합니다.
- (선택) 본인이 세운 가설이 왜 결과와 일치 또는 불일치하는 결과가 나왔는지 검색 또는 분석해봅니다.
예시 : 저는 Kaggle 에서 Netflix Movies and TV Shows Listings of movies and tv shows on Netflix - Regularly Updated 데이터를 확인했습니다. 제가 세운 가설은 어린이 프로그램 (시청 연령 제한 12세 이하)이 성인 프로그램 (시청 연령 15세 이상, 19세 이상) 프로그램보다 'duration' 이 짧을 거라고 가설을 세웠습니다. 이유는 어린이들이 성인보다 동영상 시청에 대한 집중력이 낮을거라고 생각을 했기 때문입니다. 데이터 안정화를 위해 Season 을 가진 프로그램은 데이터에서 제외했습니다.. 실제 데이터를 확인한 결과, 어린이 프로그램과 성인 프로그램의 'duration' 은 별 반 차이가 없었습니다. (어린이 프로그램 duraion 평균 값과 성인 프로그램 duration 평균 값을 막대 그래프로 비교) 이는 넷플릭스라는 플랫폼의 특성 상 성인 또한 가볍고 짧은 시간 동안 볼 수 있는 프로그램을 선호하기 때문이라고 기사를 통해 알 수 있었습니다. (기사 첨부)
'PMB_09 > Daily' 카테고리의 다른 글
[코드스테이츠 PMB 9기] 웹/앱서비스 & FE/BE (0) | 2022.01.04 |
---|---|
[코드스테이츠 PMB 9기] IT서비스 기초 및 FE 지식 / w. 커피챗 (0) | 2022.01.03 |
[코드스테이츠 PMB 9기] 린 분석 (0) | 2021.12.30 |
[코드스테이츠 PMB 9기] 데이터 분석 / w. (0) | 2021.12.28 |
[코드스테이츠 PMB 9기] DBMS 와 SQL / w.틴더(Tinder) (0) | 2021.12.28 |