DIKW 피라미드
- Data : 개별 데이터, 의미 중요하지 않은 객관적인 사실
ex. A는 100원, B는 200원에 연필 판매
- Information: 데이터의 가공/처리, 데이터 간 연관관계 속 의미도출 된 것
하지만, 정보의 의미는 유용하지 않을 수 있음
ex. 연필이 더 저렴하다
- Knowledge: 도출된 정보 구조화, 유의미한 정보 분류, 개인적 경험 결합 -> 고유한 지식으로 내재화
ex. 더 저렴한 A로부터 연필 사야겠다
- Wisdom: 지식 축적, 아이디어 결합 -> 창의적 산물 (추측, 예측 들어감)
ex. A의 다른 물건도 저렴할 것이다.
데이터 상식
1. 비트 bit (binary digit) : 0,1 로 2가지 값으로 신호 나타내는 최소단위. 이진수
2. 바이트 byte: 1byte = 8개 bit
- 숫자, 영어 글자표현 가능 (1바이트) / 한글: 2바이트
데이터 단위
1바이트 (byte) = 8비트
1킬로바이트 (kb) = 1024 바이트
1메가바이트 (mb) = 1024 킬로바이트
1기가바이트(gb) = 1024 메가바이트
1테라바이트 (tb) = 1024 기가바이트
1페타바이트 (pb) = 1024테라바이트
1엑사바이트 (eb) = 1024페타바이트
1제타바이트 (zb) = 1024엑사바이트
1요타바이트 (yb) = 1024제타바이트
DB (Data-Base) : 정보의 집합체
DBMS(Data-Base Management System): 쉽게 데이터베이스 구축/ 유지 위한 관리 소프트웨어
데이터베이스 일반적인 특징
- 통합 데이터 integrated data : 중복 없이 통합
- 저장 데이터 stored data: 접근 가능한 저장 매체에 저장
- 공용 데이터 shared data
- 변화 데이터 operational data : 새로운 데이터 삽입, 기존 데이터 수정/ 삭제 -> 최신 데이터 유지
OLTP (online transaction processing) : 거래 단위 초점 -> 데이터 입력/처리 및 수집
OLAP (online analytical processing) : 각 데이터 쌓인 데이터 초점 -> 분석
데이터베이스 종류
관계형 RDB (Relationship DB)
- 데이터를 행, 열로 이뤄진 테이블에 저장
- 하나의 열: 하나의 속성, 같은 속성의 값만 가질 수 있음
- 데이터 저장 방식: 구조적으로 엑셀파일과 유사 (열 기반 데이터 추출 잘하기 위한)
- 장점: 정형 데이터 다루는데 특화
-> Oralce, MySQL, DB2, MariaDB, Apache, SQLite(오픈소스)
NoSQL 비관계형 (Non-Relationship)
- Not only SQL, Non SQL, Non-relational
- SQL이 필요 없다가 아니라, 기존 RDB의 SQL보완 및 개선
- 장점 : 비정형 데이터, 대용량 데이터 분석/분산처리 용이
-> Document-oriented DB: CouchDB, MongoDB, Elasticsearch, Cloudant
-> Key-Value DB: 아마존의 Dynamo, Redis, Riak, Cohernece, SimpleDB
-> Column-Oriented DB: 구글의 Bigtable, Cassandra, HBase, HyperTable
계층형 DBMS
- 데이터가 부모-자식 형태 갖도록 관계 맺어 관리
- 단점: 데이터 중복 문제 발생
네트워크형 DBMS
- 각 데이터 간 연결 통해 네트워크처럼 복잡한 그물 형태
- 단점: 중복 문제 없으나, 복잡한 구조로 구조 변경 어려움
분산형 DBMS
- 분산된 여러 개 데이터베이스를 하나의 데이터베이스로 인식, 사용
객체지향 DBMS
- 사용자가 정의하는 타입을 하나의 데이터 유형으로 저장
- 장점: 구조 없는 비정형 데이터여도 사용자 원하는 방식으로 표현 가능
데이터베이스 구성요소
- 인스턴스: 하나의 객체, 존재하는 모두 인스턴스 (사람, 동물, 물건)
- 속성: 객체 표현 위해 사용되는 값, (사람의 속성 - 이름, 성별, 주민등록번호, 직업)
- 엔터티: 데이터 집합, 2개 이상의 인스턴스, 1개 이상의 속성 보유해야 함
- 메타데이터: 데이터를 설명하는 데이터 (파일 언제/어디서 생성되었는지 추가 정보)
- 인덱스: 데이터 저장 시 내부 자동 데이터 이름 지정
데이터 마트 (DM) : USB에 담긴 CSV 파일, HDD/SSD에 저장된 엑셀 파일, DBMS에 담긴 데이터/ 클라우드에 업로드된 형태의 여러가지 파일
데이터 웨어하우스로부터 추출된 작은데이터베이스, 특정 목표 달성에 필요한 데이터 제공
데이터 웨어하우스 (DW) : 분산된 환경에 흩어져 있는 데이터 -> 개인/ 조직이 총체적 관점에서 의사결정 위해 공통의 형식으로 변환, 관리
빅데이터 특징
1. volume : 데이터 양 증가
2. variety : 데이터 유형 증가
3. velocirty : 데이터 수집 및 처리속도 증가
4. value (새로운 특징)
빅데이터 변화
1. 사전처리 -> 사후처리:
데이터 사전처리 아닌, 가능한 많은 데이터 모으고. 데이터를 다양한 방식으로 조합, 숨은 인사이트 발굴
대용량 데이터를 한꺼번에 처리기술 발전
2. 표본조사 -> 전수조사: IoT/클라우드 기술 발전 -> 데이터 처리 비용 감소
데이터 활용 방법 변환
3. 질 -> 양: 수집 데이터 양 증가 -> 정확도 높아짐 -> 양질 분석 결과 산출에 긍정영향
4. 인과관계 -> 상관관계 : 과거엔 특정 인관관계 중요 -> 데이터 양 급격 증가 -> 상관관계 통해 현상 발생 가능성 포착
빅데이터 가치 산정
- 데이터 활용 : 재사용, 재조합, 다목적용 데이터 개발 일반화 -> 언제/어떻게/어디서 활용 알 수 없게 됨
- 가치 창출 : 기존 없던 새로운 가치 창출
- 분석 기술 발전 : 가치 있는/ 없는 데이터 경계 나누기 어려움 / 오늘은 가치 없는 게 내일은 가치 있는 데이터 될 수
빅데이터 활용 사례
- 구글 검색 기능, 월마트 매출 향상, 질병 예후 진단
- 실시간 교통정보수집, 기후정보, 각종 지질 활동, 국가안전 확보 활동
- 개인 SNS 활용
미래 빅데이터 필요 요소
- 데이터 : 모든 것의 데이터화
- 기술 : 진화하는 알고리즘, 인공지능
- 인력 : 데이터 사이언스, 알고리즈미스트
빅데이터 활용 기본 테크닉
1. 연관 규칙 학습 Association rule learning
어떤 변인 간 주목할 만한 상관관계 있는지 찾는다 (연관분석, 장바구니 분석)
2. 유형분석 Classiifation tree analysis
새로운 사건이 속할 범주 찾는 방법 (어떤 특성 가진 집단에 속하는가?) 분류 / 특성으로
- 분류 .classification : 지도학습
- 군집 clustering: 비지도학습
3. 유전 알고리즘 genetic algorithms
- 최적화 필요한 문제 해결 -> 자연선택, 돌연변이 매커니즘 통해 점진적으로 진화
- 최적화된 택배 차량 배치 (유전 알고리즘), 최고 시청률 내기 위한 방송 프로그램 배치 (유전 알고리즘)
- 응급실 의사 효율적 배치
- 연비 좋은 자동차 개발 위해 원자재/엔지니어링 결합 어떻게 할가
4. 기계학습 = 머신러닝 (ML)
- 컴퓨터가 데이터로부터 규칙을 찾고, 규칙 활용해 '예측'
- 기존 시청 기록 -> 시청자 보유 영화 중 어떤 영화가 가장 보고싶어할까
5. 회귀분석 Regression analysis
- 독립변수(원인) 조작 -> 종속변수(원인 받는/ 결과) 어떻게 변하는지
ex. 사용자의 만족도 -> 충성도 영향?
이웃, 규모 -> 집값 영향?
상품가격 -> 매출 영향?
6. 감정분석 Sentiment analysis
글 쓴 사람 감정 분석 -> Text 마이닝 -> 영화평 긍정/부정 많냐
비정형 데이터 마이닝 기법
텍스트 파일로부터 단어 추출, 추출된 단어의 긍/부정 선별 -> 글쓴이 감정 분석
cf. 텍스트 마이닝 용어
- 스테밍 stemming : 가겠다. 갈 것이다, 간다, 가야 한다 -> 가다
단어의 어원 찾는 작업
- 코퍼스: 말뭉치 (텍스트 분석 위해 모아놓은 단어/ 문장)
- 토큰화 Tokenization : 문장/ 코퍼스를 여러 개 뜻을 가진 가장 작은 단위 단어로 나누는 작업
- 임베딩 Embedding : 토큰화 수행된 단어집합에 일련 벡터 변환 작업
7. 소셜 네트워크 분석 Social Network Analysis
팔로워, 팔로잉 관계 분석 -> 영향력 있는 사람 찾아내어 마케팅, 범죄 수사에 공범 찾기
빅데이터 위기 요인
1. 사생활 침해
2. 책임 원칙 훼손 : 분석 대상 되는 사람들이 예측 알고리즘 희생양
3. 데이터 오용
빅데이터 통제 방안
1. 사생활 침해 통제 방안: 개인정보 제공자 '동의' -> 개인정보 사용자의 '책임'
2. 책임 원칙 훼손 통제 방안: 결과 기반 책임
- 특정인 '성향'에 따라 처벌 아닌 '행동 결과' 로 처벌
3. 알고리즘 접근 허용
- 사전 피해자 방지, 피해자 구제 인력 '알고리즈미스트 Algorithmist'
개인정보 비식별 기술
- 데이터 속 특정 개인 식별할 수 있는 요인 숨기기
- 빅데이터로 인해 각광
1. 데이터 마스킹: 데이터 기존 형식 유지, 식별할 수 없는 임의의 값(기호)로 대체
일부 *** 로 대체
가나다라마 -> ***라마
2. 가명 처리: 데이터 값을 다른 값으로 변경
가나다라마 -> 바사바사나
3. 총계 처리: 각각 데이터 값 아닌 전체 데이터에 대한 총합/ 평균으로 데이터 보여준다
70점 80점 90점 ->평균 80점
4. 데이터 값 삭제: 데이터 값 일부 삭제
서울시 강남구 -> 서울시
5. 데이터 범주화 : 특정 값 아닌 범위 제공
수학 80점 -> 수학 70-90점
빅데이터 분석
- 핵심은 크기가 아닌 인사이트
데이터로부터 어떤 시각/인사이트 얻을 수 있는가
- 비즈니스 핵심가치 집중, 관련 분석 평가 지표 개발, 효과적으로 시장/고객 변화에 대응
데이터 사이언스
- 데이터로부터 의미 있는 정보 추출
- 정형/ 비정형 떠나 다양한 유형의 데이터 대상
- 데이터 공학, 수학, 통계학, 컴퓨터 공학, 시각화, 해커의 사고방식, 산업 전문 지식 종합
- 데이터 마이닝과 다름
데이터 마이닝 : 분석 포커스
데이터 사이언스: 분석 + 효과적으로 구현/전달 + 전략적 인사이트 도출
포괄적, 총체적 접근
전략적 통찰 추구, 비즈니스 핵심 이슈에 답하고, 사업의 성과 견인 -> 데이터 마이닝과 핵심 차이점 / '소통' 역량이 중요한 이유
데이터 사이언스 핵심 구성 요소
- analytics : 수학, 확률 모델, 머신러닝, 분석학, 패턴인식/학습, .불확실성 모델링
- IT (Data Management): 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우징, 고성능 컴퓨팅
- 비즈니스 분석: 커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화
데이터 사이언스 역량
- 하드스킬 : 빅데이터 이론지식(방법론), 분석기술 숙련(최적 설계/노하우)
- 소프트스킬: 통찰력 (창의, 호기심, 논리 비판), 설득력 있는 전달 (스토리텔링, 시각화), 다분야 간 협력(커뮤니케이션)
- 데이터 관리 (데이터 이해) / 분석 모델링 (분석론 지식) / 비즈니스 분석(비즈니스 요소) / 소프트 스킬 (커뮤니케이션, 협력, 리더십, 창의력, 규율, 열정)
가치 패러다임 변화
과거: Digitalization (아날로그 효과적으로 디지털화) -> 현재: Connection (디지털화된 대상 서로 연결, 효과적) -> 미래: Agency (복잡한 연결 효과적, 믿을 만하게 관리하는가)
Datafication 데이터화
- 아날로그 -> 디지털
- 예: 사물인터넷
SQL
- DDL : 데이터 정의 (CREATE, ALTER, RENAME, DROP) -> 테이블 명령어
- DML: 데이터 조작 (SELECT, INSERT, UPDATE, DELETE) -> 테이블 포함된 데이터 명령어
- DCL: 데이터 제어 (GRANT, REVOKE) -> 사용자 권한 부여/회수
- TCL: 트랙잭션 제어 언어 (COMMIT, SAVEPOINT, ROLLBACK) -> 데이터 일괄 적용 / 현재 데이터 상태 기억 / Commit 되지 않았다면 변경사항에 대한 명령 철회 or savepoint 시점으로 되돌아간다
비즈니스 용어
ERP : Enterprise Resource Pricing
기업이 보유한 자원의 효과적 이용을 목적 -> 경영 효율화 위한 데이터 통합 및 관리
SCM : Supply Chain Management
유통 부문, 공급망 관리. '원자재 -> 기업 -> 고객' 의 유통 단계 최적화하여 고객에 제공 목적
ERP (Enterprise Resource Planning)
제조 부문, 경영 자원 통합 관리. 여러 자원, 업무가 하나로 통합된 시스템으로 재구축.
어느 부서에서 필요로 하는 자원을 알리 경우, 바로 그 자원에 대한 구매/생산 진행할 수 있도록 업무 효율성 높이는 목적
CRM(Customer Relationship Management)
제조 부문. 고객 관계 관리. 기업 내 외부적 분석 통해 마케팅 측면에서 신규 고객 창출 / 기존 고객 이탈 방지 목적
BI (Business Intelligence)
제조 부문. 비즈니스 인텔리전스. 기업의 의사결정 프로세스.
기업의 경영권 소유자의 의사결정 위해 기업 데이터를 가공/분석 목적
'여러 곳 산재된 데이터 수집 -> 체계적, 일목요연하게 정리 -> 사용자 필요로 하는 정보를 정확한 시간에 제공'
- 참고: ad hoc report: 비즈니스 이슈에 답 위한 신속한 보고서 작성 위한 BI도구
RTE(Real Time Enterprise)
제조 부문. 기업의 업무 프로세스에서 발생하는 정보 실시간으로 통합, 전달 -> 신속한 대응 위한 스피드 경영