AI - Computer Vision/Computer Vision 이란?

컴퓨터 비전이란?

Queen Julia 2024. 1. 28. 13:54

Computer Vision

인공지능의 한 분야, 시각적 세계를 해석하고 이해하도록 컴퓨터를 학습

  • 인공 지능과 ‘이미지 처리 기술’ 결합
  • 컴퓨터와 시스템 → 디지털 이미지, 비디오, 기타 시각적 입력에서 의미 있는 정보 추출 → 작업 → 추천
  • 컴퓨터에게 시각(vision) 데이터 처리 능력을 부여하는 기술
  • 사람의 얼굴을 인식하여 신원 데이터를 조회

인간의 시각과 메커니즘이 거의 동일

인간의 시력: 사물이 얼마나 멀리 떨어져 있는지, 사물이 움직이는지 여부, 이미지에 문제가 있는지 여부 등으로 사물을 구분; 이러한 구분 방법을 평생 학습

구분을 수행하도록 머신을 훈련하지만 → ‘망막, 시신경, 시각 피질’이 아닌 카메라, 데이터, 알고리즘 사용 → 훨씬 더 짧은 시간에 수행

제품 검사 or 생산 자산 관찰하도록 훈련된 시스템:

수천 개의 제품 또는 프로세스를 짧은 시간 동안 분석 → 감지할 수 없는 결함이나 문제를 찾아낼 수 있기 때문 → 인간의 능력을 금방 앞지를 수 있다


컴퓨터 비전 작동원리

  • 많은 데이터 필요
  • 차이 구분, 이미지 인식할 때까지 데이터 분석을 반복적으로 실행
  • 필수 기술: 딥 러닝(일종의 머신러닝), 컨볼루션 신경망(CNN)

머신러닝

  • 컴퓨터가 스스로 학습할 수 있는 알고리즘 모델 사용
    • 시각적 데이터의 context에 따라
    • 이미지를 인식하도록 프로그래밍 (X) ****
  • 충분한 데이터 공급 → 컴퓨터가 데이터를 "보고", 이미지를 서로 구별할 수 있도록 스스로 학습

CNN

  1. 이미지 → 태그 또는 레이블 지정된 픽셀로 분해머신 러닝 또는 딥 러닝 모델이 ‘볼 수 있는’ 형태로 만든다
  2. 레이블 사용 → 컨볼루션(세 번째 함수를 생성하는 두 함수에 대한 수학적 연산)수행 → "보고 있는" 것에 대해 예측 수행
  3. 신경망 : 컨볼루션 실행 → 예측이 실현되기 전까지 일련의 반복 → 예측 정확성 확인
  4. 인간과 유사한 방식으로 이미지를 인식, 보게 된다
  • 먼저 명확한 가장자리(hard edge)와 단순한 도형을 구분 → 예측 반복 → 정보 채운다 (인간이 적당한 거리를 두고 이미지를 만드는 것처럼)
  • CNN: 단일 이미지 구분
  • RNN: 비디오 애플리케이션에서 단일 이미지 구분

컴퓨터 비전의 역사

컴퓨터가 시각적 데이터를 보고 이해할 수 있는 방법을 60년간 개발

  • 신경생리학자: 고양이에게 이미지 보여주고 뇌의 반응을 상관분석 (1959)
    • 고양이가 가장 명확한 가장자리, 선에 먼저 반응함을 발견
    • → 과학적으로, 이미지 처리가 직선 가장자리 같은 단순한 도형에서 시작
  • 최초의 컴퓨터 이미지 스캐닝 기술 개발 (1959)
  • → 컴퓨터가 이미지를 디지털화, 획득
  • 컴퓨터가 2차원 이미지를 3차원 형태로 변환 (1963)
  • AI 가 1960년대 학술 분야로 등장, 인간 시각 문제 해결 위한 AI탐구 시작
  • 광학 문자 인식(OCR) 기술 도입: 글꼴, 서체로 인쇄된 텍스트 인식 (1974)
  • 지능형 문자 인식(ICR): 신경망 사용하여 손으로 쓴 텍스트 해독
  • OCR, ICR: 문서/송장 처리, 차량 번호판 인식, 모바일 결제, 기계 번역, 기타 일반 애플리케이션에 적용
  • 신경과학자 David Marr: 시각의 계층적 작용 개념 확립, 컴퓨터가 가장자리/모서리/곡선/유사 기본 도형 감지하는 알고리즘 도입 (1982)
  • 컴퓨터 과학자 Kunihiko Fukushima: 패턴 인식 가능한 세포망 개발_ convolution layer포함 (1982)
  • 2000년까지 연구: 객체 인식
  • 최초 실시간 얼굴 인식 애플리케이션 (시각적 데이터 세트에 태그 지정, 어노테이션 추가하는 방법) (2001)
  • ImageNet 데이터 세트 사용 : 수천 개의 객체 클래스 포괄하는 수백만 개의 태그 지정된 이미지 포함, 오늘날 CNN/딥러닝의 토대 (2010)
  • CNN으로 이미지 인식 컨테스트 출전, 이미지 인식 오류율 불과 몇 퍼센트 (2012)

컴퓨터 비전 활용

  • 다양한 어플리케이션 분야
  • 사람의 얼굴을 인식하여 신원 데이터를 조회
  • 군사적: 피아식별을 통해 사살해야 하는 대상을 찾아냄
  • 생태학적: 야생동물의 이동경로를 추적
  • 의학적: 영상의학과 원격 수술에 응용

영상 분석 기법의 연구

  • 많은 일상분야에 활용됨: 얼굴 및 물체 인식/ QR 코드/바코드 스캐닝, 페이스북의 얼굴 인식/ 아이폰의 Face ID
  • 모션 트래킹
  • 광학식 모션 캡쳐, 립모션을 이용한 손의 움직임 감지, 오큘러스 퀘스트의 외부 적외선 카메라를 이용한 손 움직임 감지 등 영상정보로부터 관절의 위치를 역산하여 움직임 구현
  • 시각적 주행 측정과 광학 흐름 (optical flow)
  • 자율주행 자동차