본문 바로가기
파이썬(Python)

[파이썬] Python 데이터 분석 기본환경설정

by Serendipity_ 2022. 7. 17.
반응형

최근 엑셀 파워쿼리보다 Python으로 데이터 분석을 많이 진행한다.

엑셀보다 성능이 좋고, 빠르기 때문이다. 

엑셀은 100만행이 조금 넘어가면 더 이상 데이터를 저장할 수 없지만 Python은 200만행 넘는 것도 거뜬히 불러온다. 

다만 코드로 쓰다보니 엑셀보다 어렵다.

 

오늘은 기본적으로 데이터 분석할 때 기본적으로 쓰는 환경설정에 대해 공유하고자 한다. 

 

1. 라이브러리 임포트

1
2
3
4
5
6
7
8
# 라이브러리 import
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
 
 
  •  파이썬은 프로그래밍 언어 중에 쉬운편에 속하는데, 똑똑한 누군가가 이런 라이브러리를 다 만들어 두었기 떄문이다.
  •  문과생이 이해한 라이브러리란 .. 쉽게 작업할 수 있도록 어렵게 작업해야 하는 코드들을 쉬운 것으로 만들어 둔 것? 정도로 이해하였다. 

2. 폰트설정

한국어를 그래프에 출력하려면 온갖 문제에 부딪히게 된다.

이를 위해 폰트설정을 해주는데, 처음에 코딩할 때 이 부분이 안되서 많은 어려움을 겪었다. 

 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
def get_font_family():
    """
    시스템 환경에 따른 기본 폰트명을 반환하는 함수
    """
    import platform
    system_name = platform.system()
    # colab 사용자는 system_name이 'Linux'로 확인
 
    if system_name == "Darwin" :
        font_family = "AppleGothic"
    elif system_name == "Windows":
        font_family = "Malgun Gothic"
    else:
        !apt-get install fonts-nanum -qq  > /dev/null
        !fc-cache -fv
 
        import matplotlib as mpl
        mpl.font_manager._rebuild()
        findfont = mpl.font_manager.fontManager.findfont
        mpl.font_manager.findfont = findfont
        mpl.backends.backend_agg.findfont = findfont
        
        font_family = "NanumBarunGothic"
    return font_family
 
# 운영체제에 맞는 font_family 찾기 
font_family = get_font_family()
font_family

운영체제에 맞는 폰트를 또 써야한다. Window를 쓸 경우 '맑은 고딕', 맥OS를 쓸 경우, 'AppleGothic'이다.

 

3. 폰트설정 적용 및 그래프 배경화면 설정

 

기본적으로 컴퓨터를 오래하다보면 눈이 침침해져서 Dark Mode 를 주로 쓴다. 

그럴 때 배경이 검정색이면 그래프가 안보이는 경우가 있어서 그래프 배경을 whitegrid로 지정해두었다.

 

또 파이썬 그래프 그릴 때 마이너스가 깨진다.

그래서 마이너스폰트도 별도 설정 해주어야 한다.

 

retina display의 경우 설정 시 조금 더 선명해지기 때문에 해두었다. 

1
2
3
4
5
6
7
8
9
10
11
12
#그래프 스타일 설정
# dark mode 사용자를 위한 스타일 추천
plt.style.use("seaborn-whitegrid")
 
# 폰트설정
plt.rc("font", family=font_family)
# 마이너스폰트 설정
plt.rc("axes", unicode_minus=False)
 
# 그래프에 retina display 적용
from IPython.display import set_matplotlib_formats
set_matplotlib_formats("retina")

 

4. 열 컬럼 max로 보여주기

Python pandas로 열을 보여줄 경우, 모든 열을 다 보여주지 않는다.

엑셀의 경우 모든 열과 행을 다 보면서 진행하지만 Python의 경우 요약된 데이터를 먼저 보여준다.

그래서 전체 열을 다 보고 싶은 경우에는 아래와 같은 코드를 쓴다.

엑셀에서 당연했던 것들이 Python에선 당연하지 않아 처음엔 좀 당황할 수 있어 최대한 엑셀과 비슷한 환경에서 분석할 때 필요한 도구들이다.  

1
pd.options.display.max_columns = None
 

 

엑셀과 파이썬 모두 훌륭히 잘 써서 좋은 데이터 분석을 할 수 있으면 좋겠다. 

반응형

댓글