홈페이지로 돌아가기
Data Analytics & Big Data Glossary
분야별 필터링
두 가지 버전을 비교하여 어느 것이 더 나은 성과를 내는지 실험하는 방법입니다.
Application Programming Interface의 약자로, 소프트웨어 간 상호작용을 위한 인터페이스입니다.
Extract(추출), Transform(변환), Load(적재)의 약자로, 데이터를 소스에서 추출하여 변환 후 목적지에 적재하는 프로세스입니다.
JavaScript Object Notation의 약자로, 데이터 교환을 위한 경량 텍스트 형식입니다.
관계형 데이터베이스가 아닌 다양한 형태의 데이터베이스를 통칭합니다. MongoDB, Redis, Cassandra 등이 있습니다.
Receiver Operating Characteristic 곡선으로, 분류 모델의 성능을 평가하는 그래프입니다.
관계형 데이터베이스에서 데이터를 관리하고 조회하기 위한 표준 쿼리 언어입니다.
에이전트가 환경과 상호작용하며 보상을 최대화하는 행동을 학습하는 머신러닝 방법입니다.
데이터셋에서 값이 누락된 부분입니다. 평균 대체, 삭제 등의 처리 방법이 있습니다.
모델이 학습 데이터에만 지나치게 최적화되어 새로운 데이터에 대한 일반화 성능이 떨어지는 현상입니다.
데이터를 여러 부분으로 나누어 반복적으로 학습과 검증을 수행하여 모델 성능을 평가하는 기법입니다.
유사한 특성을 가진 데이터를 그룹으로 묶는 비지도 학습 기법입니다. K-means, DBSCAN 등의 알고리즘이 사용됩니다.
가능한 하이퍼파라미터 조합을 모두 시도하여 최적의 조합을 찾는 기법입니다.
소스 코드 버전 관리 시스템으로, 협업과 코드 이력 관리를 지원합니다.
베이즈 정리를 기반으로 한 확률적 분류 알고리즘입니다. 텍스트 분류, 스팸 필터링 등에 널리 사용됩니다.
파이썬의 수치 계산 라이브러리로, 다차원 배열과 행렬 연산을 지원합니다.
데이터의 가용성, 유용성, 무결성, 보안을 관리하는 전반적인 체계입니다. 데이터 품질과 규정 준수를 보장합니다.
정형, 반정형, 비정형 데이터를 원시 형태로 저장하는 중앙 집중식 저장소입니다. 데이터 웨어하우스와 달리 스키마를 미리 정의하지 않습니다.
특정 부서나 비즈니스 영역에 초점을 맞춘 데이터 웨어하우스의 부분 집합입니다. 더 빠른 쿼리 성능과 간소화된 접근을 제공합니다.
통계학, 컴퓨터 과학, 도메인 지식을 결합하여 데이터로부터 인사이트를 추출하는 학제간 분야입니다.
데이터를 그래픽 형식으로 표현하여 패턴, 추세, 이상치를 쉽게 이해할 수 있도록 하는 기술입니다.
의사 결정 지원을 위해 다양한 소스에서 수집된 정형 데이터를 저장하는 중앙 저장소입니다. 분석 및 리포팅에 최적화되어 있습니다.
데이터를 한 시스템에서 다른 시스템으로 이동시키는 일련의 자동화된 프로세스입니다. 수집, 변환, 저장, 분석 단계를 포함합니다.
데이터가 의도한 용도에 적합한 정도를 나타내는 척도입니다. 정확성, 완전성, 일관성, 적시성 등으로 평가됩니다.
지도학습을 위해 데이터에 정답(레이블)을 부여하는 작업입니다.
정형, 반정형, 비정형 데이터를 원본 형태 그대로 저장하는 중앙 저장소입니다.
대량의 데이터에서 의미있는 패턴과 규칙을 발견하는 과정입니다. 분류, 군집화, 연관규칙 등의 기법을 사용합니다.
의사결정 지원을 위해 다양한 소스의 데이터를 통합하여 저장하는 중앙 저장소입니다.
애플리케이션을 컨테이너로 패키징하여 어디서나 동일하게 실행할 수 있게 하는 플랫폼입니다.
다층 신경망을 사용하여 복잡한 패턴을 학습하는 머신러닝의 한 분야입니다. 이미지 인식, 자연어 처리 등에서 뛰어난 성능을 보입니다.
명시적인 프로그래밍 없이 데이터로부터 학습하고 성능을 개선하는 인공지능의 한 분야입니다. 지도 학습, 비지도 학습, 강화 학습으로 분류됩니다.
일정 시간 동안 축적된 데이터를 한꺼번에 처리하는 방식입니다.
데이터를 미리 정의된 범주로 분류하는 지도학습 기법입니다. 의사결정나무, SVM, 랜덤포레스트 등이 있습니다.
비즈니스 데이터를 수집, 통합, 분석하여 의사결정을 지원하는 기술과 전략의 집합입니다.
대용량의 정형 또는 비정형 데이터 세트로, 기존의 데이터베이스 관리 도구로는 처리하기 어려운 규모의 데이터를 의미합니다. 일반적으로 3V(Volume, Velocity, Variety)로 특징지어집니다.
두 변수 간의 선형적 관계의 강도와 방향을 측정하는 분석 기법입니다. 피어슨 상관계수가 대표적입니다.
실시간으로 생성되는 데이터를 즉시 처리하는 방식입니다. Kafka, Flink 등이 사용됩니다.
연속적으로 생성되는 데이터를 실시간으로 처리하고 분석하는 기술입니다. 배치 처리와 대조됩니다.
대용량 데이터를 빠르게 처리하기 위한 분산 처리 엔진입니다. Hadoop보다 100배 빠른 인메모리 처리가 가능합니다.
데이터를 그래프, 차트 등 시각적 형태로 표현하여 패턴과 인사이트를 발견하는 기법입니다.
시간 순서로 관측된 데이터를 분석하여 패턴을 찾고 미래를 예측하는 기법입니다.
인간 뇌의 신경망 구조를 모방한 머신러닝 모델입니다. 입력층, 은닉층, 출력층으로 구성되며 딥러닝의 기초가 됩니다.
데이터가 생성되는 즉시 또는 거의 즉시 분석하여 인사이트를 도출하는 분석 방법입니다.
여러 개의 모델을 결합하여 더 나은 성능을 얻는 기법입니다. 배깅, 부스팅, 스태킹 등이 있습니다.
과거와 현재 데이터를 분석하여 미래의 결과를 예측하는 분석 기법입니다. 통계 알고리즘과 머신러닝 기술을 활용합니다.
다차원 분석 쿼리에 빠르게 응답하도록 설계된 데이터베이스 기술입니다. 복잡한 분석과 데이터 마이닝에 사용됩니다.
다른 데이터와 크게 벗어난 값입니다. IQR, Z-score 등으로 탐지합니다.
정상 데이터 패턴에서 벗어난 이상치를 탐지하는 기법입니다.
Natural Language Processing의 약자로, 인간의 언어를 컴퓨터가 이해하고 처리하는 기술입니다.
실제 양성 중 모델이 양성으로 예측한 비율입니다. 재현율 = TP / (TP + FN)
사전 학습된 모델을 새로운 작업에 재사용하여 학습 시간과 데이터를 절약하는 기법입니다.
데이터의 범위를 일정한 수준으로 맞추는 전처리 기법입니다. Min-Max 정규화, Z-score 정규화 등이 있습니다.
모델이 양성으로 예측한 것 중 실제 양성의 비율입니다. 정밀도 = TP / (TP + FP)
데이터 분석과 머신러닝을 위한 대화형 노트북 환경입니다. 코드, 시각화, 문서를 하나의 문서에 통합할 수 있습니다.
고차원 데이터의 특징 수를 줄여 계산 효율성을 높이고 시각화를 용이하게 하는 기법입니다. PCA가 대표적입니다.
데이터를 소스 시스템에서 추출(Extract)하고, 비즈니스 규칙에 따라 변환(Transform)한 후, 목적지 데이터베이스에 적재(Load)하는 데이터 통합 프로세스입니다.
대용량의 실시간 데이터 스트림을 처리하기 위한 분산 이벤트 스트리밍 플랫폼입니다. 높은 처리량과 낮은 지연시간을 특징으로 합니다.
데이터 과학 경진대회 플랫폼이자 데이터 사이언티스트 커뮤니티입니다. 다양한 데이터셋과 노트북을 제공합니다.
인터넷을 통해 컴퓨팅 리소스를 제공하는 서비스입니다. AWS, GCP, Azure 등이 있습니다.
유사한 특성을 가진 데이터를 그룹으로 묶는 비지도학습 기법입니다. K-means, 계층적 군집화 등이 있습니다.
구글에서 개발한 오픈소스 머신러닝 프레임워크입니다. 딥러닝 모델 구축과 학습에 널리 사용됩니다.
원본 데이터로부터 모델 성능을 향상시킬 수 있는 새로운 특징을 생성하거나 선택하는 과정입니다.
데이터 분석과 머신러닝에 가장 널리 사용되는 프로그래밍 언어입니다. NumPy, Pandas, Scikit-learn 등 풍부한 라이브러리를 제공합니다.
파이썬의 데이터 분석 라이브러리로, DataFrame을 사용한 효율적인 데이터 조작을 지원합니다.
대용량 데이터를 분산 처리하기 위한 오픈소스 프레임워크입니다. HDFS와 MapReduce로 구성됩니다.
학습 과정을 제어하는 매개변수로, 학습 전에 사용자가 설정합니다.
독립 변수와 종속 변수 간의 관계를 모델링하여 예측하는 통계적 분석 기법입니다. 선형 회귀, 다항 회귀, 로지스틱 회귀 등 다양한 방법이 있습니다.