파이썬으로 가상의 데이터 만들기(Feat. Faker)

가상데이터 사용목적

데이터 테스트를 위해 실제 데이터에 바로 하기보다는 샘플로 하는 경우가 대부분일텐데요. 그 때 샘플 데이터 만들 때 은근 적절하게 만드는 게 참 쉽지 않습니다. 이런 경우에는 가상 데이터로 쉽게 만들어서 진행할 수 있습니다. 가상데이터이다보니 내용은 틀렸지만 형식은 적절해서 더욱 샘플로 쓰기가 좋습니다.

저도 이제 블로그 글 쓸 때 이름 고민 등을 안해도 될 것 같아요 .. ! 😀

패키지 설치

가상데이터 이용 시 패키지를 설치해야합니다.

pip install faker

jupyter lab 또는 jupyter notebook을 사용하는 경우 conda 설치방법 입니다.

conda install -c conda-forge faker

라이브러리 로드

from faker import Faker
fake = Faker('ko-KR') # 한국어 데이터를 사용하고 싶은 경우, "ko-KR"을 입력
# 영어 데이터 사용 시 fake = Faker()로 사용

간단한 예시

from faker import Faker
fake = Faker('ko-KR')
fake.name()

'박건우'라는 가상의 데이터가 나타납니다.

조금 더 다른 데이터를 돌려보겠습니다.

다시 돌려보니 '김춘자'라는 이름이 나타나고 회사이름은 (유) 윤이우 등의 형태로 나타납니다.

주소데이터를 보면 시와 구 그리고 상세주소가 각각 따로따로 나타나는데 아마 학습할 때 시군구 데이터를 학습한 다음 무작위로 섞어서 배치한 것으로 보입니다.

민감한 데이터인 개인정보 데이터로 샘플 연습을 하는 것보단 이렇게 아무 의미 없는 데이터로 연습해보는 게 더 좋을 것 같습니다 ! 😃

더 많은 형태의 데이터 구분이 궁금하신 분들은 아래 링크 참고해주시면 될 것 같습니다. (맨 아래 첨부)

가짜데이터 데이터형태로 만들기

데이터 형태로 만들기 위해서는 pandas 라이브러리를 불러와야 합니다.

import pandas as pd

이후 반복문을 통해 불러오면 완성입니다.

company_lst = []
name_lst = []
address_lst = []
postcode_lst = []

for i in range(30) : 
    company = fake.company()
    name = fake.name()
    address = fake.address()
    postcode = fake.postcode()
    
    company_lst.append(company)
    name_lst.append(name)
    address_lst.append(address)
    postcode_lst.append(postcode)

df = pd.DataFrame({'Company' : company_lst,
                 'Name' : name_lst,
                 'Address' : address_lst,
                 'Postcode' : postcode_lst})
df

16개 데이터만 들고왔습니다. 대충 이런 형태구나 정도만 봐주시면 될 것 같습니다.

가상 데이터를 통해서 민감한 개인정보 데이터 샘플 대용으로 많은 활용하시면 될 것 같습니다.

전체 코드(참고용)

from faker import Faker
import pandas as pd

fake = Faker('ko-KR')

company_lst = []
name_lst = []
address_lst = []
postcode_lst = []

for i in range(30) : 
    company = fake.company()
    name = fake.name()
    address = fake.address()
    postcode = fake.postcode()
    
    company_lst.append(company)
    name_lst.append(name)
    address_lst.append(address)
    postcode_lst.append(postcode)

df = pd.DataFrame({'Company' : company_lst,
                 'Name' : name_lst,
                 'Address' : address_lst,
                 'Postcode' : postcode_lst})
df

참고링크

https://faker.readthedocs.io/en/master/

Welcome to Faker’s documentation! — Faker 18.13.0 documentation

Faker is a Python package that generates fake data for you. Whether you need to bootstrap your database, create good-looking XML documents, fill-in your persistence to stress test it, or anonymize data taken from a production service, Faker is for you. Com

faker.readthedocs.io

https://wikidocs.net/105448

120 테스트용 데이터를 생성하려면? ― faker

faker는 테스트용 가짜 데이터를 생성할 때 사용하는 라이브러리이다. 마찬가지로 pip을 이용하여 설치한다. ```no-highlight pip install Faker ``…

wikidocs.net

저작자표시 비영리 변경금지 (새창열림)

'파이썬(Python)' 카테고리의 다른 글

엑셀 데이터를 R에 붙여넣기 / R데이터를 엑셀에 붙여넣기 (0)	2024.08.05
Python 데이터를 엑셀에 붙여넣기 / 엑셀 데이터를 파이썬에 붙여넣기 (0)	2024.08.05
[Pandas활용] pd.cut / pd.qcut을 이용하여 빈도수 확인하기 (0)	2023.05.01
[Python] Jupyterlab 자동 괄호닫기, 따옴표 닫기 설정 (0)	2023.01.27
[파이썬 / Python ] Prophet 함수로 블로그 방문자수를 예측해보자 (1)	2023.01.26

엑셀 자동화로 칼퇴하는 김대리의 고군분투기

파이썬으로 가상의 데이터 만들기(Feat. Faker)

가상데이터 사용목적

패키지 설치

라이브러리 로드

간단한 예시

가짜데이터 데이터형태로 만들기

전체 코드(참고용)

참고링크

'파이썬(Python)' 카테고리의 다른 글

댓글

티스토리툴바

파이썬으로 가상의 데이터 만들기(Feat. Faker)

가상데이터 사용목적

패키지 설치

라이브러리 로드

간단한 예시

가짜데이터 데이터형태로 만들기

전체 코드(참고용)

참고링크

'파이썬(Python)' 카테고리의 다른 글

관련글

댓글

티스토리툴바