ADSP - 데이터와 정보

Data Analysis 데이터 분석/ADSP

ADSP - 데이터와 정보

Queen Julia 2024. 12. 26. 13:18

DIKW 피라미드

- Data : 개별 데이터, 의미 중요하지 않은 객관적인 사실

ex. A는 100원, B는 200원에 연필 판매

- Information: 데이터의 가공/처리, 데이터 간 연관관계 속 의미도출 된 것

하지만, 정보의 의미는 유용하지 않을 수 있음

ex. 연필이 더 저렴하다

- Knowledge: 도출된 정보 구조화, 유의미한 정보 분류, 개인적 경험 결합 -> 고유한 지식으로 내재화

ex. 더 저렴한 A로부터 연필 사야겠다

- Wisdom: 지식 축적, 아이디어 결합 -> 창의적 산물 (추측, 예측 들어감)

ex. A의 다른 물건도 저렴할 것이다.

데이터 상식

1. 비트 bit (binary digit) : 0,1 로 2가지 값으로 신호 나타내는 최소단위. 이진수

2. 바이트 byte: 1byte = 8개 bit

- 숫자, 영어 글자표현 가능 (1바이트) / 한글: 2바이트

데이터 단위

1바이트 (byte) = 8비트

1킬로바이트 (kb) = 1024 바이트

1메가바이트 (mb) = 1024 킬로바이트

1기가바이트(gb) = 1024 메가바이트

1테라바이트 (tb) = 1024 기가바이트

1페타바이트 (pb) = 1024테라바이트

1엑사바이트 (eb) = 1024페타바이트

1제타바이트 (zb) = 1024엑사바이트

1요타바이트 (yb) = 1024제타바이트

DB (Data-Base) : 정보의 집합체

DBMS(Data-Base Management System): 쉽게 데이터베이스 구축/ 유지 위한 관리 소프트웨어

데이터베이스 일반적인 특징

- 통합 데이터 integrated data : 중복 없이 통합

- 저장 데이터 stored data: 접근 가능한 저장 매체에 저장

- 공용 데이터 shared data

- 변화 데이터 operational data : 새로운 데이터 삽입, 기존 데이터 수정/ 삭제 -> 최신 데이터 유지

OLTP (online transaction processing) : 거래 단위 초점 -> 데이터 입력/처리 및 수집

OLAP (online analytical processing) : 각 데이터 쌓인 데이터 초점 -> 분석

데이터베이스 종류

관계형 RDB (Relationship DB)

- 데이터를 행, 열로 이뤄진 테이블에 저장

- 하나의 열: 하나의 속성, 같은 속성의 값만 가질 수 있음

- 데이터 저장 방식: 구조적으로 엑셀파일과 유사 (열 기반 데이터 추출 잘하기 위한)

- 장점: 정형 데이터 다루는데 특화

-> Oralce, MySQL, DB2, MariaDB, Apache, SQLite(오픈소스)

NoSQL 비관계형 (Non-Relationship)

- Not only SQL, Non SQL, Non-relational

- SQL이 필요 없다가 아니라, 기존 RDB의 SQL보완 및 개선

- 장점 : 비정형 데이터, 대용량 데이터 분석/분산처리 용이

-> Document-oriented DB: CouchDB, MongoDB, Elasticsearch, Cloudant

-> Key-Value DB: 아마존의 Dynamo, Redis, Riak, Cohernece, SimpleDB

-> Column-Oriented DB: 구글의 Bigtable, Cassandra, HBase, HyperTable

계층형 DBMS

- 데이터가 부모-자식 형태 갖도록 관계 맺어 관리

- 단점: 데이터 중복 문제 발생

네트워크형 DBMS

- 각 데이터 간 연결 통해 네트워크처럼 복잡한 그물 형태

- 단점: 중복 문제 없으나, 복잡한 구조로 구조 변경 어려움

분산형 DBMS

- 분산된 여러 개 데이터베이스를 하나의 데이터베이스로 인식, 사용

객체지향 DBMS

- 사용자가 정의하는 타입을 하나의 데이터 유형으로 저장

- 장점: 구조 없는 비정형 데이터여도 사용자 원하는 방식으로 표현 가능

데이터베이스 구성요소

- 인스턴스: 하나의 객체, 존재하는 모두 인스턴스 (사람, 동물, 물건)

- 속성: 객체 표현 위해 사용되는 값, (사람의 속성 - 이름, 성별, 주민등록번호, 직업)

- 엔터티: 데이터 집합, 2개 이상의 인스턴스, 1개 이상의 속성 보유해야 함

- 메타데이터: 데이터를 설명하는 데이터 (파일 언제/어디서 생성되었는지 추가 정보)

- 인덱스: 데이터 저장 시 내부 자동 데이터 이름 지정

데이터 마트 (DM) : USB에 담긴 CSV 파일, HDD/SSD에 저장된 엑셀 파일, DBMS에 담긴 데이터/ 클라우드에 업로드된 형태의 여러가지 파일

데이터 웨어하우스로부터 추출된 작은데이터베이스, 특정 목표 달성에 필요한 데이터 제공

데이터 웨어하우스 (DW) : 분산된 환경에 흩어져 있는 데이터 -> 개인/ 조직이 총체적 관점에서 의사결정 위해 공통의 형식으로 변환, 관리

빅데이터 특징

1. volume : 데이터 양 증가

2. variety : 데이터 유형 증가

3. velocirty : 데이터 수집 및 처리속도 증가

4. value (새로운 특징)

빅데이터 변화

1. 사전처리 -> 사후처리:

데이터 사전처리 아닌, 가능한 많은 데이터 모으고. 데이터를 다양한 방식으로 조합, 숨은 인사이트 발굴

대용량 데이터를 한꺼번에 처리기술 발전

2. 표본조사 -> 전수조사: IoT/클라우드 기술 발전 -> 데이터 처리 비용 감소

데이터 활용 방법 변환

3. 질 -> 양: 수집 데이터 양 증가 -> 정확도 높아짐 -> 양질 분석 결과 산출에 긍정영향

4. 인과관계 -> 상관관계 : 과거엔 특정 인관관계 중요 -> 데이터 양 급격 증가 -> 상관관계 통해 현상 발생 가능성 포착

빅데이터 가치 산정

- 데이터 활용 : 재사용, 재조합, 다목적용 데이터 개발 일반화 -> 언제/어떻게/어디서 활용 알 수 없게 됨

- 가치 창출 : 기존 없던 새로운 가치 창출

- 분석 기술 발전 : 가치 있는/ 없는 데이터 경계 나누기 어려움 / 오늘은 가치 없는 게 내일은 가치 있는 데이터 될 수

빅데이터 활용 사례

- 구글 검색 기능, 월마트 매출 향상, 질병 예후 진단

- 실시간 교통정보수집, 기후정보, 각종 지질 활동, 국가안전 확보 활동

- 개인 SNS 활용

미래 빅데이터 필요 요소

- 데이터 : 모든 것의 데이터화

- 기술 : 진화하는 알고리즘, 인공지능

- 인력 : 데이터 사이언스, 알고리즈미스트

빅데이터 활용 기본 테크닉

1. 연관 규칙 학습 Association rule learning

어떤 변인 간 주목할 만한 상관관계 있는지 찾는다 (연관분석, 장바구니 분석)

2. 유형분석 Classiifation tree analysis

새로운 사건이 속할 범주 찾는 방법 (어떤 특성 가진 집단에 속하는가?) 분류 / 특성으로

- 분류 .classification : 지도학습

- 군집 clustering: 비지도학습

3. 유전 알고리즘 genetic algorithms

- 최적화 필요한 문제 해결 -> 자연선택, 돌연변이 매커니즘 통해 점진적으로 진화

- 최적화된 택배 차량 배치 (유전 알고리즘), 최고 시청률 내기 위한 방송 프로그램 배치 (유전 알고리즘)

- 응급실 의사 효율적 배치

- 연비 좋은 자동차 개발 위해 원자재/엔지니어링 결합 어떻게 할가

4. 기계학습 = 머신러닝 (ML)

- 컴퓨터가 데이터로부터 규칙을 찾고, 규칙 활용해 '예측'

- 기존 시청 기록 -> 시청자 보유 영화 중 어떤 영화가 가장 보고싶어할까

5. 회귀분석 Regression analysis

- 독립변수(원인) 조작 -> 종속변수(원인 받는/ 결과) 어떻게 변하는지

ex. 사용자의 만족도 -> 충성도 영향?

이웃, 규모 -> 집값 영향?

상품가격 -> 매출 영향?

6. 감정분석 Sentiment analysis

글 쓴 사람 감정 분석 -> Text 마이닝 -> 영화평 긍정/부정 많냐

비정형 데이터 마이닝 기법

텍스트 파일로부터 단어 추출, 추출된 단어의 긍/부정 선별 -> 글쓴이 감정 분석

cf. 텍스트 마이닝 용어

- 스테밍 stemming : 가겠다. 갈 것이다, 간다, 가야 한다 -> 가다

단어의 어원 찾는 작업

- 코퍼스: 말뭉치 (텍스트 분석 위해 모아놓은 단어/ 문장)

- 토큰화 Tokenization : 문장/ 코퍼스를 여러 개 뜻을 가진 가장 작은 단위 단어로 나누는 작업

- 임베딩 Embedding : 토큰화 수행된 단어집합에 일련 벡터 변환 작업

7. 소셜 네트워크 분석 Social Network Analysis

팔로워, 팔로잉 관계 분석 -> 영향력 있는 사람 찾아내어 마케팅, 범죄 수사에 공범 찾기

빅데이터 위기 요인

1. 사생활 침해

2. 책임 원칙 훼손 : 분석 대상 되는 사람들이 예측 알고리즘 희생양

3. 데이터 오용

빅데이터 통제 방안

1. 사생활 침해 통제 방안: 개인정보 제공자 '동의' -> 개인정보 사용자의 '책임'

2. 책임 원칙 훼손 통제 방안: 결과 기반 책임

- 특정인 '성향'에 따라 처벌 아닌 '행동 결과' 로 처벌

3. 알고리즘 접근 허용

- 사전 피해자 방지, 피해자 구제 인력 '알고리즈미스트 Algorithmist'

개인정보 비식별 기술

- 데이터 속 특정 개인 식별할 수 있는 요인 숨기기

- 빅데이터로 인해 각광

1. 데이터 마스킹: 데이터 기존 형식 유지, 식별할 수 없는 임의의 값(기호)로 대체

일부 *** 로 대체

가나다라마 -> ***라마

2. 가명 처리: 데이터 값을 다른 값으로 변경

가나다라마 -> 바사바사나

3. 총계 처리: 각각 데이터 값 아닌 전체 데이터에 대한 총합/ 평균으로 데이터 보여준다

70점 80점 90점 ->평균 80점

4. 데이터 값 삭제: 데이터 값 일부 삭제

서울시 강남구 -> 서울시

5. 데이터 범주화 : 특정 값 아닌 범위 제공

수학 80점 -> 수학 70-90점

빅데이터 분석

- 핵심은 크기가 아닌 인사이트

데이터로부터 어떤 시각/인사이트 얻을 수 있는가

- 비즈니스 핵심가치 집중, 관련 분석 평가 지표 개발, 효과적으로 시장/고객 변화에 대응

데이터 사이언스

- 데이터로부터 의미 있는 정보 추출

- 정형/ 비정형 떠나 다양한 유형의 데이터 대상

- 데이터 공학, 수학, 통계학, 컴퓨터 공학, 시각화, 해커의 사고방식, 산업 전문 지식 종합

- 데이터 마이닝과 다름

데이터 마이닝 : 분석 포커스

데이터 사이언스: 분석 + 효과적으로 구현/전달 + 전략적 인사이트 도출

포괄적, 총체적 접근

전략적 통찰 추구, 비즈니스 핵심 이슈에 답하고, 사업의 성과 견인 -> 데이터 마이닝과 핵심 차이점 / '소통' 역량이 중요한 이유

데이터 사이언스 핵심 구성 요소

- analytics : 수학, 확률 모델, 머신러닝, 분석학, 패턴인식/학습, .불확실성 모델링

- IT (Data Management): 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우징, 고성능 컴퓨팅

- 비즈니스 분석: 커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화

데이터 사이언스 역량

- 하드스킬 : 빅데이터 이론지식(방법론), 분석기술 숙련(최적 설계/노하우)

- 소프트스킬: 통찰력 (창의, 호기심, 논리 비판), 설득력 있는 전달 (스토리텔링, 시각화), 다분야 간 협력(커뮤니케이션)

- 데이터 관리 (데이터 이해) / 분석 모델링 (분석론 지식) / 비즈니스 분석(비즈니스 요소) / 소프트 스킬 (커뮤니케이션, 협력, 리더십, 창의력, 규율, 열정)

가치 패러다임 변화

과거: Digitalization (아날로그 효과적으로 디지털화) -> 현재: Connection (디지털화된 대상 서로 연결, 효과적) -> 미래: Agency (복잡한 연결 효과적, 믿을 만하게 관리하는가)

Datafication 데이터화

- 아날로그 -> 디지털

- 예: 사물인터넷

SQL

- DDL : 데이터 정의 (CREATE, ALTER, RENAME, DROP) -> 테이블 명령어

- DML: 데이터 조작 (SELECT, INSERT, UPDATE, DELETE) -> 테이블 포함된 데이터 명령어

- DCL: 데이터 제어 (GRANT, REVOKE) -> 사용자 권한 부여/회수

- TCL: 트랙잭션 제어 언어 (COMMIT, SAVEPOINT, ROLLBACK) -> 데이터 일괄 적용 / 현재 데이터 상태 기억 / Commit 되지 않았다면 변경사항에 대한 명령 철회 or savepoint 시점으로 되돌아간다

비즈니스 용어

ERP : Enterprise Resource Pricing

기업이 보유한 자원의 효과적 이용을 목적 -> 경영 효율화 위한 데이터 통합 및 관리

SCM : Supply Chain Management

유통 부문, 공급망 관리. '원자재 -> 기업 -> 고객' 의 유통 단계 최적화하여 고객에 제공 목적

ERP (Enterprise Resource Planning)

제조 부문, 경영 자원 통합 관리. 여러 자원, 업무가 하나로 통합된 시스템으로 재구축.

어느 부서에서 필요로 하는 자원을 알리 경우, 바로 그 자원에 대한 구매/생산 진행할 수 있도록 업무 효율성 높이는 목적

CRM(Customer Relationship Management)

제조 부문. 고객 관계 관리. 기업 내 외부적 분석 통해 마케팅 측면에서 신규 고객 창출 / 기존 고객 이탈 방지 목적

BI (Business Intelligence)

제조 부문. 비즈니스 인텔리전스. 기업의 의사결정 프로세스.

기업의 경영권 소유자의 의사결정 위해 기업 데이터를 가공/분석 목적

'여러 곳 산재된 데이터 수집 -> 체계적, 일목요연하게 정리 -> 사용자 필요로 하는 정보를 정확한 시간에 제공'

- 참고: ad hoc report: 비즈니스 이슈에 답 위한 신속한 보고서 작성 위한 BI도구

RTE(Real Time Enterprise)

제조 부문. 기업의 업무 프로세스에서 발생하는 정보 실시간으로 통합, 전달 -> 신속한 대응 위한 스피드 경영

현재글ADSP - 데이터와 정보

PM과 BD, Backend 그 어느 사이

문과 PM에서 백엔드를 배우고 IT업계로 나아가는 스터디 기록 (관심분야: 헬스케어, AI, 핀테크, 블록체인)

오픈api #api #인터페이스, U, 터미널 #리눅스 #terminal #linux #commands #명령어, ㄷ, N, node #nodejs, 데이터베이스 #관계형데이터베이스, Q,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

PM과 BD, Backend 그 어느 사이

ADSP - 데이터와 정보

'Data Analysis 데이터 분석/ADSP'의 다른글

티스토리툴바