Backend 개발/Python

[파이썬] pypi pip / pandas 판다스 데이터 분석 기능

Queen Julia 2024. 3. 4. 08:08

개발자들은 사교적.

내가 만든 것을 다른 사람도 쓸 수 있도록 공개.

 

다른 개발자들이 만든 거를 우리가 쓸 수 있도록 하는 소프트웨어 = 패키지, 라이브러리 

 

 

python package index = pypi

https://pypi.org/

 

PyPI · The Python Package Index

The Python Package Index (PyPI) is a repository of software for the Python programming language.

pypi.org

 

 

엑셀의 데이터들을 효과적으로 쉽게 관리 = '콴다스' 

pypi 에서 설치해보자 

 

 

 

상세페이지에 설명이 나와있다

 

 

 

 

위에, 이 패키지를 설치하는 코드가 나와있다. 

 

아래 코드와 같이 앞에 붙이는 것을 추천 

python3 -m pip install pandas

 

python3 -m pip install pandas

 

pip란?

pypi.org 사이트에 내장된 패키지를 컴퓨터에 쉽게 설치할 수 있도록 도와주는 소프트웨어

 

 

터미널에 설치

 

 

pip 설치가 됐다면, 

pandas 판다스 사용법 

1. pip가 다운 받은 pandas 를 import 

import pandas

 

2. 데이터 있는 excel 파일을 csv 확장자로 다운로드 = csv 데이터

- 행으로 구분

- 각각 컬럼은 ,로 구분 

 

3. csv 데이터를 직접 분석하기보다, 쉽게 도와주는게 pandas 

 

print(house), 그리고 python3 (파일 이름).py로 출력하면,

 

csv파일에 있는 데이터를 보기 좋은 형태로 시각화해서 보여줌. 

 

1-5행까지 보여주고, 중간 생략, 끝에 있는 데이터를 보여줌.

 

 

 

앞쪽에 있는 데이터 5개만 보고 싶으면, 
import pandas
house = pandas.read_csv('house.csv')
print(house.head())

 

앞쪽 데이터 5개만 화면에 출력

 

앞쪽에 있는 데이터 2개만 보고 싶으면, 
import pandas
house = pandas.read_csv('house.csv')
print(house.head(2))

 

 

표에 대한 정보 묘사해주는 기능 

각각 컬럼에 대한 성격을 파악하고 싶다 

일목요연하게 보여주고, 데이터 과학에서 필수 기능! 

import pandas
house = pandas.read_csv('house.csv')
print(house.describe())

 

- crim컬럼의 데이터는 506개이다 (count)

- crim컬럼의 모든 데이터의 평균은 3.613524 (mean)

- crim컬럼의 그 데이터에 대한 가장 작은 값은 min

- crim컬럼의 그 데이터에 대한 가장 큰 값은 max

 

 

 

삶의 문제를 파이썬, pip에서 다운로드 해서 할 수도,

내가 만든 기능을 업로드해서 다른 사람들이 쓰도록 할 수도 있음.