최근 엑셀 파워쿼리보다 Python으로 데이터 분석을 많이 진행한다.
엑셀보다 성능이 좋고, 빠르기 때문이다.
엑셀은 100만행이 조금 넘어가면 더 이상 데이터를 저장할 수 없지만 Python은 200만행 넘는 것도 거뜬히 불러온다.
다만 코드로 쓰다보니 엑셀보다 어렵다.
오늘은 기본적으로 데이터 분석할 때 기본적으로 쓰는 환경설정에 대해 공유하고자 한다.
1. 라이브러리 임포트
1
2
3
4
5
6
7
8
|
# 라이브러리 import
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
|
- 파이썬은 프로그래밍 언어 중에 쉬운편에 속하는데, 똑똑한 누군가가 이런 라이브러리를 다 만들어 두었기 떄문이다.
- 문과생이 이해한 라이브러리란 .. 쉽게 작업할 수 있도록 어렵게 작업해야 하는 코드들을 쉬운 것으로 만들어 둔 것? 정도로 이해하였다.
2. 폰트설정
한국어를 그래프에 출력하려면 온갖 문제에 부딪히게 된다.
이를 위해 폰트설정을 해주는데, 처음에 코딩할 때 이 부분이 안되서 많은 어려움을 겪었다.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
|
def get_font_family():
"""
시스템 환경에 따른 기본 폰트명을 반환하는 함수
"""
import platform
system_name = platform.system()
# colab 사용자는 system_name이 'Linux'로 확인
if system_name == "Darwin" :
font_family = "AppleGothic"
elif system_name == "Windows":
font_family = "Malgun Gothic"
else:
!apt-get install fonts-nanum -qq > /dev/null
!fc-cache -fv
import matplotlib as mpl
mpl.font_manager._rebuild()
findfont = mpl.font_manager.fontManager.findfont
mpl.font_manager.findfont = findfont
mpl.backends.backend_agg.findfont = findfont
font_family = "NanumBarunGothic"
return font_family
# 운영체제에 맞는 font_family 찾기
font_family = get_font_family()
font_family
|
운영체제에 맞는 폰트를 또 써야한다. Window를 쓸 경우 '맑은 고딕', 맥OS를 쓸 경우, 'AppleGothic'이다.
3. 폰트설정 적용 및 그래프 배경화면 설정
기본적으로 컴퓨터를 오래하다보면 눈이 침침해져서 Dark Mode 를 주로 쓴다.
그럴 때 배경이 검정색이면 그래프가 안보이는 경우가 있어서 그래프 배경을 whitegrid로 지정해두었다.
또 파이썬 그래프 그릴 때 마이너스가 깨진다.
그래서 마이너스폰트도 별도 설정 해주어야 한다.
retina display의 경우 설정 시 조금 더 선명해지기 때문에 해두었다.
1
2
3
4
5
6
7
8
9
10
11
12
|
#그래프 스타일 설정
# dark mode 사용자를 위한 스타일 추천
plt.style.use("seaborn-whitegrid")
# 폰트설정
plt.rc("font", family=font_family)
# 마이너스폰트 설정
plt.rc("axes", unicode_minus=False)
# 그래프에 retina display 적용
from IPython.display import set_matplotlib_formats
set_matplotlib_formats("retina")
|
4. 열 컬럼 max로 보여주기
Python pandas로 열을 보여줄 경우, 모든 열을 다 보여주지 않는다.
엑셀의 경우 모든 열과 행을 다 보면서 진행하지만 Python의 경우 요약된 데이터를 먼저 보여준다.
그래서 전체 열을 다 보고 싶은 경우에는 아래와 같은 코드를 쓴다.
엑셀에서 당연했던 것들이 Python에선 당연하지 않아 처음엔 좀 당황할 수 있어 최대한 엑셀과 비슷한 환경에서 분석할 때 필요한 도구들이다.
1
|
pd.options.display.max_columns = None
|
엑셀과 파이썬 모두 훌륭히 잘 써서 좋은 데이터 분석을 할 수 있으면 좋겠다.
'파이썬(Python)' 카테고리의 다른 글
[Python] 정규표현식을 통한 숫자형태 변환 replace 함수활용 (1) | 2022.10.04 |
---|---|
[파이썬(Python)] 파이썬으로 엑셀 작동하기_조작방법(openpyxl) (0) | 2022.10.02 |
[한산-용의 출현] 댓글 수집하기 (0) | 2022.08.01 |
[Python] Kaggle 에서 데이터 다운받기 (0) | 2022.07.24 |
[파이썬 / Python] 업무자동화에 대한 생각_크롤링 예시 (0) | 2022.06.04 |
댓글