Data Analysis 데이터 분석/ADSP

ADSP - 데이터와 정보

Queen Julia 2024. 12. 26. 13:18

DIKW 피라미드 

 

- Data : 개별 데이터, 의미 중요하지 않은 객관적인 사실 

ex. A는 100원, B는 200원에 연필 판매 

- Information: 데이터의 가공/처리, 데이터 간 연관관계 속 의미도출 된 것 

하지만, 정보의 의미는 유용하지 않을 수 있음

ex. 연필이 더 저렴하다  

- Knowledge: 도출된 정보 구조화, 유의미한 정보 분류, 개인적 경험 결합 -> 고유한 지식으로 내재화 

ex. 더 저렴한 A로부터 연필 사야겠다

- Wisdom: 지식 축적, 아이디어 결합 -> 창의적 산물  (추측, 예측 들어감)

ex. A의 다른 물건도 저렴할 것이다. 

 


데이터 상식 

1. 비트 bit (binary digit) : 0,1 로 2가지 값으로 신호 나타내는 최소단위. 이진수 

 2. 바이트 byte: 1byte = 8개 bit 

- 숫자, 영어 글자표현 가능 (1바이트) / 한글: 2바이트 

 

데이터 단위 

1바이트 (byte) = 8비트

1킬로바이트 (kb) = 1024 바이트 

1메가바이트 (mb) = 1024 킬로바이트

1기가바이트(gb) = 1024 메가바이트

1테라바이트 (tb) = 1024 기가바이트

1페타바이트 (pb) = 1024테라바이트

1엑사바이트 (eb) = 1024페타바이트

1제타바이트 (zb) = 1024엑사바이트

1요타바이트 (yb) = 1024제타바이트 


DB (Data-Base) : 정보의 집합체 

DBMS(Data-Base Management System): 쉽게 데이터베이스 구축/ 유지 위한 관리 소프트웨어 

 

데이터베이스 일반적인 특징 

- 통합 데이터 integrated data : 중복 없이 통합 

- 저장 데이터 stored data: 접근 가능한 저장 매체에 저장

- 공용 데이터 shared data 

- 변화 데이터 operational data : 새로운 데이터 삽입, 기존 데이터 수정/ 삭제 -> 최신 데이터 유지 


OLTP (online transaction processing) : 거래 단위 초점 -> 데이터 입력/처리 및 수집 

OLAP (online analytical processing) : 각 데이터 쌓인 데이터 초점 -> 분석 


데이터베이스 종류 

 

관계형 RDB (Relationship DB) 

- 데이터를 행, 열로 이뤄진 테이블에 저장 

- 하나의 열: 하나의 속성, 같은 속성의 값만 가질 수 있음 

- 데이터 저장 방식: 구조적으로 엑셀파일과 유사 (열 기반 데이터 추출 잘하기 위한)

- 장점: 정형 데이터 다루는데 특화 

 

-> Oralce, MySQL, DB2, MariaDB, Apache, SQLite(오픈소스)

 

NoSQL 비관계형 (Non-Relationship) 

- Not only SQL, Non SQL, Non-relational 

- SQL이 필요 없다가 아니라, 기존 RDB의 SQL보완 및 개선 

- 장점 : 비정형 데이터, 대용량 데이터 분석/분산처리 용이 

 

-> Document-oriented DB: CouchDB, MongoDB, Elasticsearch, Cloudant

-> Key-Value DB: 아마존의 Dynamo, Redis, Riak, Cohernece, SimpleDB

-> Column-Oriented DB: 구글의 Bigtable, Cassandra, HBase, HyperTable 

 

계층형 DBMS 

- 데이터가 부모-자식 형태 갖도록 관계 맺어 관리 

- 단점: 데이터 중복 문제 발생 

 

네트워크형 DBMS

- 각 데이터 간 연결 통해 네트워크처럼 복잡한 그물 형태

- 단점: 중복 문제 없으나, 복잡한 구조로 구조 변경 어려움 

 

분산형 DBMS 

- 분산된 여러 개 데이터베이스를 하나의 데이터베이스로 인식, 사용 

 

객체지향 DBMS

- 사용자가 정의하는 타입을 하나의 데이터 유형으로 저장 

- 장점: 구조 없는 비정형 데이터여도 사용자 원하는 방식으로 표현 가능 

 

데이터베이스 구성요소 

- 인스턴스: 하나의 객체, 존재하는 모두 인스턴스 (사람, 동물, 물건) 

- 속성: 객체 표현 위해 사용되는 값, (사람의 속성 - 이름, 성별, 주민등록번호, 직업) 

- 엔터티: 데이터 집합, 2개 이상의 인스턴스, 1개 이상의 속성 보유해야 함 

- 메타데이터: 데이터를 설명하는 데이터 (파일 언제/어디서 생성되었는지 추가 정보) 

- 인덱스: 데이터 저장 시 내부 자동 데이터 이름 지정 

 

데이터 마트 (DM) : USB에 담긴 CSV 파일, HDD/SSD에 저장된 엑셀 파일, DBMS에 담긴 데이터/ 클라우드에 업로드된 형태의 여러가지 파일 

데이터 웨어하우스로부터 추출된 작은데이터베이스, 특정 목표 달성에 필요한 데이터 제공 

 

데이터 웨어하우스 (DW) : 분산된 환경에 흩어져 있는 데이터 -> 개인/ 조직이 총체적 관점에서 의사결정 위해 공통의 형식으로 변환, 관리 

 

빅데이터 특징 

1. volume : 데이터 양 증가

2. variety : 데이터 유형 증가

3. velocirty : 데이터 수집 및 처리속도 증가

4. value (새로운 특징) 

 

빅데이터 변화 

1. 사전처리 -> 사후처리: 

데이터 사전처리 아닌, 가능한 많은 데이터 모으고. 데이터를 다양한 방식으로 조합, 숨은 인사이트 발굴 

대용량 데이터를 한꺼번에 처리기술 발전 

 

2. 표본조사 -> 전수조사: IoT/클라우드 기술 발전 -> 데이터 처리 비용 감소 

데이터 활용 방법 변환 

 

3. 질 -> 양: 수집 데이터 양 증가 -> 정확도 높아짐 -> 양질 분석 결과 산출에 긍정영향 

 

4. 인과관계 -> 상관관계 : 과거엔 특정 인관관계 중요 -> 데이터 양 급격 증가 -> 상관관계 통해 현상 발생 가능성 포착 

 

빅데이터 가치 산정 

- 데이터 활용 : 재사용, 재조합, 다목적용 데이터 개발 일반화 -> 언제/어떻게/어디서 활용 알 수 없게 됨

- 가치 창출 : 기존 없던 새로운 가치 창출 

- 분석 기술 발전 : 가치 있는/ 없는 데이터 경계 나누기 어려움 / 오늘은 가치 없는 게 내일은 가치 있는 데이터 될 수 

 

빅데이터 활용 사례 

- 구글 검색 기능, 월마트 매출 향상, 질병 예후 진단

- 실시간 교통정보수집, 기후정보, 각종 지질 활동, 국가안전 확보 활동

- 개인 SNS 활용

 

미래 빅데이터 필요 요소 

- 데이터 : 모든 것의 데이터화 

- 기술 : 진화하는 알고리즘, 인공지능

- 인력 : 데이터 사이언스, 알고리즈미스트

 

 

빅데이터 활용 기본 테크닉

1. 연관 규칙 학습 Association rule learning

어떤 변인 간 주목할 만한 상관관계 있는지 찾는다 (연관분석, 장바구니 분석) 

 

2. 유형분석 Classiifation tree analysis 

새로운 사건이 속할 범주 찾는 방법 (어떤 특성 가진 집단에 속하는가?) 분류 / 특성으로 

- 분류 .classification : 지도학습 

- 군집 clustering: 비지도학습 

 

 

3. 유전 알고리즘 genetic algorithms 

- 최적화 필요한 문제 해결 -> 자연선택, 돌연변이 매커니즘 통해 점진적으로 진화 

- 최적화된 택배 차량 배치 (유전 알고리즘), 최고 시청률 내기 위한 방송 프로그램 배치 (유전 알고리즘) 

- 응급실 의사 효율적 배치 

- 연비 좋은 자동차 개발 위해 원자재/엔지니어링 결합 어떻게 할가 

 

4. 기계학습 = 머신러닝 (ML) 

- 컴퓨터가 데이터로부터 규칙을 찾고, 규칙 활용해 '예측'

- 기존 시청 기록 -> 시청자 보유 영화 중 어떤 영화가 가장 보고싶어할까 

 

5. 회귀분석 Regression analysis

- 독립변수(원인) 조작 -> 종속변수(원인 받는/ 결과) 어떻게 변하는지 

ex. 사용자의 만족도 -> 충성도 영향? 

이웃, 규모 -> 집값 영향?

상품가격 -> 매출 영향? 

 

6. 감정분석 Sentiment analysis 

글 쓴 사람 감정 분석 -> Text 마이닝 -> 영화평 긍정/부정 많냐 

비정형 데이터 마이닝 기법 

텍스트 파일로부터 단어 추출, 추출된 단어의 긍/부정 선별 -> 글쓴이 감정 분석 

 

cf. 텍스트 마이닝 용어 

- 스테밍 stemming : 가겠다. 갈 것이다, 간다, 가야 한다 -> 가다 

단어의 어원 찾는 작업 

- 코퍼스: 말뭉치 (텍스트 분석 위해 모아놓은 단어/ 문장) 

- 토큰화 Tokenization : 문장/ 코퍼스를 여러 개 뜻을 가진 가장 작은 단위 단어로 나누는 작업 

- 임베딩 Embedding : 토큰화 수행된 단어집합에 일련 벡터 변환 작업 

 

7. 소셜 네트워크 분석 Social Network Analysis

팔로워, 팔로잉 관계 분석 -> 영향력 있는 사람 찾아내어 마케팅, 범죄 수사에 공범 찾기 

 

빅데이터 위기 요인 

1. 사생활 침해 

2. 책임 원칙 훼손 : 분석 대상 되는 사람들이 예측 알고리즘 희생양 

3. 데이터 오용 

 

빅데이터 통제 방안 

1. 사생활 침해 통제 방안: 개인정보 제공자 '동의'  -> 개인정보 사용자의 '책임' 

2. 책임 원칙 훼손 통제 방안: 결과 기반 책임 

- 특정인 '성향'에 따라 처벌 아닌 '행동 결과' 로 처벌 

3. 알고리즘 접근 허용 

- 사전 피해자 방지, 피해자 구제 인력 '알고리즈미스트 Algorithmist' 


 

개인정보 비식별 기술 

- 데이터 속 특정 개인 식별할 수 있는 요인 숨기기 

- 빅데이터로 인해 각광 

 

1. 데이터 마스킹: 데이터 기존 형식 유지, 식별할 수 없는 임의의 값(기호)로 대체 

일부 *** 로 대체 

가나다라마 -> ***라마

2. 가명 처리: 데이터 값을 다른 값으로 변경 

 가나다라마 -> 바사바사나

3. 총계 처리: 각각 데이터 값 아닌 전체 데이터에 대한 총합/ 평균으로 데이터 보여준다 

70점 80점 90점 ->평균 80점 

 

4. 데이터 값 삭제: 데이터 값 일부 삭제 

서울시 강남구 -> 서울시 

 

5. 데이터 범주화 : 특정 값 아닌 범위 제공 

수학 80점 -> 수학 70-90점 


빅데이터 분석

- 핵심은 크기가 아닌 인사이트 

데이터로부터 어떤 시각/인사이트 얻을 수 있는가 

 

- 비즈니스 핵심가치 집중, 관련 분석 평가 지표 개발, 효과적으로 시장/고객 변화에 대응 

 

데이터 사이언스 

- 데이터로부터 의미 있는 정보 추출 

- 정형/ 비정형 떠나 다양한 유형의 데이터 대상 

- 데이터 공학, 수학, 통계학, 컴퓨터 공학, 시각화, 해커의 사고방식, 산업 전문 지식 종합 

- 데이터 마이닝과 다름 

데이터 마이닝 : 분석 포커스 

데이터 사이언스: 분석 + 효과적으로 구현/전달 + 전략적 인사이트 도출 

포괄적, 총체적 접근

전략적 통찰 추구, 비즈니스 핵심 이슈에  답하고, 사업의 성과 견인 -> 데이터 마이닝과 핵심 차이점 /  '소통' 역량이 중요한 이유 

 

데이터 사이언스 핵심 구성 요소 

- analytics : 수학, 확률 모델, 머신러닝, 분석학, 패턴인식/학습, .불확실성 모델링 

- IT (Data Management): 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우징, 고성능 컴퓨팅 

- 비즈니스 분석: 커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화 

 

데이터 사이언스 역량 

- 하드스킬 : 빅데이터 이론지식(방법론), 분석기술 숙련(최적 설계/노하우)

- 소프트스킬: 통찰력 (창의, 호기심, 논리 비판), 설득력 있는 전달 (스토리텔링, 시각화), 다분야 간 협력(커뮤니케이션)

- 데이터 관리 (데이터 이해) / 분석 모델링 (분석론 지식) / 비즈니스 분석(비즈니스 요소)  / 소프트 스킬 (커뮤니케이션, 협력, 리더십, 창의력, 규율, 열정)

 

가치 패러다임 변화 

과거: Digitalization (아날로그 효과적으로 디지털화)  -> 현재: Connection (디지털화된 대상 서로 연결, 효과적) -> 미래: Agency (복잡한 연결 효과적, 믿을 만하게 관리하는가) 

 

Datafication 데이터화 

- 아날로그 -> 디지털 

- 예: 사물인터넷 


SQL

 

- DDL : 데이터 정의 (CREATE, ALTER, RENAME, DROP) -> 테이블 명령어 

- DML: 데이터 조작 (SELECT, INSERT, UPDATE, DELETE) -> 테이블 포함된 데이터 명령어 

- DCL: 데이터 제어 (GRANT, REVOKE) -> 사용자 권한 부여/회수 

- TCL: 트랙잭션 제어 언어 (COMMIT, SAVEPOINT, ROLLBACK) -> 데이터 일괄 적용 / 현재 데이터 상태 기억 / Commit 되지 않았다면 변경사항에 대한 명령 철회 or savepoint 시점으로 되돌아간다


비즈니스 용어

 

ERP : Enterprise Resource Pricing 

기업이 보유한 자원의 효과적 이용을 목적 -> 경영 효율화 위한 데이터 통합 및 관리 

 

SCM : Supply Chain Management

유통 부문, 공급망 관리. '원자재 -> 기업 -> 고객' 의  유통 단계 최적화하여 고객에 제공 목적 

 

ERP (Enterprise Resource Planning) 

제조 부문, 경영 자원 통합 관리. 여러 자원, 업무가 하나로 통합된 시스템으로 재구축. 

어느 부서에서 필요로 하는 자원을 알리 경우, 바로 그 자원에 대한 구매/생산 진행할 수 있도록 업무 효율성 높이는 목적 

 

CRM(Customer Relationship Management) 

제조 부문. 고객 관계 관리. 기업 내 외부적 분석 통해 마케팅 측면에서 신규 고객 창출 / 기존 고객 이탈 방지 목적 

 

BI (Business Intelligence) 

제조 부문. 비즈니스 인텔리전스. 기업의 의사결정 프로세스. 

기업의 경영권 소유자의 의사결정 위해 기업 데이터를 가공/분석 목적 

'여러 곳 산재된 데이터 수집 -> 체계적, 일목요연하게 정리 -> 사용자 필요로 하는 정보를 정확한 시간에 제공' 

- 참고: ad hoc report: 비즈니스 이슈에 답 위한 신속한 보고서 작성 위한 BI도구 

 

RTE(Real Time Enterprise)

제조 부문. 기업의 업무 프로세스에서 발생하는 정보 실시간으로 통합, 전달 -> 신속한 대응 위한 스피드 경영