목록분류 전체보기 (39)
VVNN

# https://untitledtblog.tistory.com/143 # https://ebbnflow.tistory.com/134 # https://bywords.tistory.com/entry/%EB%B2%88%EC%97%AD-%EC%9C%A0%EC%B9%98%EC%9B%90%EC%83%9D%EB%8F%84-%EC%9D%B4%ED%95%B4%ED%95%A0-%EC%88%98-%EC%9E%88%EB%8A%94-biasvariance-tradeoff Bias-Variance Tradeoff Learning Error = Bias + Variance + Noise * Noise : 데이터가 가지는 본질적인 한계치. irreducible error라고도 불린다. (bias/variance는 모델에 따라 변..
보호되어 있는 글입니다.
* 서비스 종류 - 컴퓨팅 : 데이터를 처리하는 서비스 (예: 가상머신) - 스토리지 : 데이터를 정적으로 저장하는 서비스(예: 객체 저장) - 데이터베이스 : 데이터를 구조화하여 저장하는 서비스(예: 관계형 데이터베이스) - 네트워크 : 데이터의 이동 방법과 관련한 서비스(예: 콘텐츠 전송 네트워크) * 컴퓨팅 서비스 - VM 기반 컴퓨팅 : 가장 익숙한 모델이나 비용과 유지 관리가 많이 필요 - 컨테이너 기반 컴퓨팅 : 워크로드를 세밀하게 분할하고 빠르게 확장할 수 있으나 추가적인 구성의 복잡성 존재 - 서버리스 기반 컴퓨팅 : 대부분의 관리 및 확장 복잡성은 없으나 하드 시스템 제한 존재 * VM 기반 컴퓨팅 서비스 메모리 및 CPU는 인스턴스 크기(예: t3.small 대 t3.xlarge) 및 ..
Keyword : 모바일 시스템에서 동작, 실시간 구현, Real-time Sematic Segmentation # 딥러닝 경량화 기술 동향 : https://sotudy.tistory.com/12?category=795081 # https://kuklife.tistory.com/120 # https://eda-ai-lab.tistory.com/545 # https://eremo2002.tistory.com/120 # https://github.com/younnggsuk/younnggsuk.github.io/blob/main/_posts/2021-02-14-segnet_a_deep_convolutional_encoder_decoder_architecture_for_image_segmentation.md ..
문제: 성능이 잘나오던 kernel=5, batch size=32 파라미터를 넣으려고 하면 out of memory로 코드가 중단된다. 근데 이전에 이 파라미터를 넣었을 때 문제없이 돌아갔는데, tversky loss를 써보겠다고 코드를 수정하면서 out of memory가 나오기 시작했고, 이후에 tversky를 삭제하고 원래 코드를 돌려도 out of memory가 발생하게 되면서 kernel=5, batch size=32 이 파라미터를 적용할 수 없게 됨. 발단: tversky loss를 써보겠다고 코드를 수정했음. (loss=tversky loss, kernel=5, batch size=16) def tversky_index(y_true, y_pred): smooth = 1 y_true_pos =..

valid error를 줄여 overfitting(과적합)을 방지하기 위한 정규화 작업. overfitting은 주어진 훈련 데이터에 대해서는 최적의 결과를 내지만 훈련하지 않은 새로운 데이터에 대해서는 엉터리 결과가 나오는 오류이다. overfitting 방지를 위해서는 데이터 양을 늘리는 것이 이상적이나 데이터를 구하는 것이 쉽지 않기 때문에 Regularization 기법을 이용한다. overfitting을 줄이기 위해 데이터 전처리 -> 데이터 구성 시 Early Stopping -> 피팅(훈련) 시 Dropout -> 모델 구성 시 Dropout은 랜덤으로 뉴런 값을 0으로 보낸다. 모델이 학습하다보면 비슷한 정보를 가지는 노드가 생기는데 이들이 과접합을 유발할 수 있기에 훈련시 일정 비율의 뉴..

딥러닝 모델을 학습시킨다는 것은 최적화를 수행한다는 것이다. Optimization(최적화)는 학습 속도를 빠르고 안정적이게 한다. loss function(손실 함수)의 최솟값 뽑아낼 수 있는 매개변수 값을 찾아나가는 과정을 최적화라고 하며, 역전파 과정에서 가중치를 업데이트하면서 진행된다. 한 스텝마다 이동하는 보폭이 learning rate(학습률)이 되고, 어디로 이동할 지의 방향은 현 지점의 기울기(gradient)를 통해 정의된다. loss의 최솟값을 찾아가는 과정은 loss function을 차근차근 거쳐 내려가는 Gradient Descent(경사 하강법) 알고리즘을 기본으로 한다. Batch GD는 1 iteration에 모든 학습 데이터(full batch)를 가지고 연산을 진행하여 연..

batch size 학습 시 메모리 부하와 속도 저하로 인해 전체 training dataset을 여러 소그룹으로 쪼갤 때 이 소그룹 안에 속하는 데이터의 수. - training dataset이 5000개일 때, batch size=100으로 설정해주면 mini batch는 50개가 있는 것. - 일반적으로 32, 64 크기의 mini batch가 가장 성능이 좋다고 함. - batch size가 작으면 전체 데이터를 여러 번 쪼개 학습하게 되므로 사용되는 메모리가 줄어든다. 너무 작은 경우에는 적은 데이터를 대상으로 가중치를 업데이트하고, 업데이트가 자주 발생하므로 불안정해진다. - batch size가 크면 속도가 빠르고 안정적인 학습이 가능하다. 너무 큰 경우에는 한번에 처리하는 데이터 양이 많아..

Activation Function(활성화 함수)을 통해 입력 신호 중 어떤 값을 활성화 시켜 다음 노드로 내보내고, 어떤 값을 비활성화시켜 내보내지 않을지 결정한다. Activation Function은 반드시 비선형함수여야하며, 입력값을 non-linear한 방식으로 출력값을 도출하기 위해 사용한다. 선형함수를 활성화 함수로 사용한다면 아무리 레이어를 많이 쌓아도 1층의 은닉층으로 구현이 가능하기때문에 층을 쌓는 혜택을 얻고 싶다면 비선형 함수를 사용해야한다. Sigmoid 입력 신호의 총합을 0~1 사이 값으로 바꿔준다. 입력신호가 값이 커질수록 뉴런의 활성화률이 1로 수렴(saturation)하고, 값이 작아질수록 활성화률이 0으로 수렴한다. 입력의 절댓값이 클 때 0이나 1로 수렴하는데, 이러한..

Similarity Measure 유사도 기법 특정 특징(feature)이 비슷한 아이템을 모아놓는(군집화시키는) 것을 클러스터링(clustering)이라고 하며, 대부분의 클러스터링 기법들은 유사도를 정의하여 '두 데이터 튜플이 비슷하다는게 무엇인지'를 명확히 제시. 유사도 기법(Similarity Measure)은 이러한 클러스터링 과정에서 비슷한 부류의 기준을 정하기 위해 사용한다. Jaccard Index 각도 기반 유사도 측정 방식. 가장 간단한 방식. 기본 원리 - 합집합에서 교집합의 비율을 구한다면 두 집합 A, B의 유사도를 구할 수 있다. jaccard 유사도는 0~1 사이 값. 두 집합이 동일하면 1, 공통 원소가 없다면 0. IoU(Intersection over Union) jacc..