코드비전

AI DATA

인공지능 전문 연구개발 기업, 코드비전입니다.

데이터 중심 AI

데이터 중심 (Data-Centric) AI

AI 시스템 = 코드(모델 & 알고리즘) + 데이터

AI의 성능 향상 방법은 모델 중심(Model-centric)과 데이터 중심(Data-centric)으로 나누어집니다.

과거에는 주로 Model-centric 방식으로 알고리즘과 모델의 구조, 학습방법, 하이퍼 파라미터 튜닝을 중점적으로 다루어 인공지능의 성능을 향상시키는 것이 주된 관심사였으나
최근에는 데이터의 품질을 높여 AI시스템의 성능을 향상시키는 Data-centric 접근 방법이 주된 관심사가 되는 것에 따라, 데이터는 AI를 학습하고 평가하는데 핵심적인 역할을 하며
중요한 자산으로 간주되기 때문에 빅데이터와 같은 대규모의 데이터셋을 확보하는데 노력을 기울이고 있습니다.

Model-Centric AI
Data-Centric AI

왜 데이터 중심(Data-Centric)의 AI인가?

효율적이고 높은 성능의 모델 개발과 AI 시스템의 지속적인 고도화의 핵심은 ‘데이터를 통한 성능개선’입니다.

Tesla와 같은 AI 기업 및 Andrew Ng과 유명 엔지니어들이 공통적으로 언급하는 주제이며, 여러 케이스 스터디에서 데이터를 개선했을 때 AI의 성능이 크게 향상되는 결과가 나타났습니다.

Large · Clean · Diverse
데이터가 더욱 필요해지고 있다.

Tesla Andrej Karpathy, CVPR 2021 강연

Consistent 한 데이터의
중요성이 대두되고 있다.

Andrew Ng

현재 시점에선 초거대 모델, 생성형 AI등의 발전으로 데이터의 중요성이 더욱 커지고 있으며, 우리는 사람에 가깝거나, 그 이상의 성능을 구현하기 위해 복잡하고 창의적이면서도 거대한 데이터가 필요한 상황입니다.

Data-centric AI는 이러한 트렌드에 따라 더 나은 인공지능 시스템을 구축하는 핵심 수단으로 자리매김하고 있습니다.

좋은 데이터를 확보하려면?

그렇다면 우리는 어떻게 좋은 데이터를 얻을 수 있을까요?

여러 어노테이터들이 서로 다른 라벨링을 부여하게 된다면, AI 알고리즘의 추론결과의 편차가 커집니다.
따라서, 어노테이터의 주관이 들어가지 않은 일관성 있는 라벨링이 필요합니다.

데이터가 많으면 노이즈가 낀 데이터가 있더라도 적절한 모델로 최적화할 수 있게 되며, 데이터가 적다면 일관성과 품질이 모델 성능에 크게 영향을 주게 됩니다.
따라서, 많은 양의 데이터 학습으로 예측오류를 줄여야 합니다.

위와 같은 기준을 충족시키기 위해서는 숙련된 데이터 전문가가 필요합니다.

코드비전은 연구와 현장기반 협력을 통한 다양한 경험적 지식전문적인 AI 기술력을 보유하고 있으며, 일관적이면서도 높은 품질의 연구분야, 고객사 수요에 최적화된 데이터를 위해 데이터 전문가가 직접 수집부터 가공까지 체계적인 프로세스로 작업을 진행합니다.

코드비전과 함께 좋은 데이터를 수집하기 위한 데이터 솔루션을 경험해보세요.