For the best web experience, please use IE11+, Chrome, Firefox, or Safari

데이터 준비 문제 완화

데이터 준비 문제 완화 지난 몇 년 동안 데이터 증가율이 급증했습니다. IDC 연구에 따르면 현재
디지털 세상의 크기는 2년마다 배로 성장하고 있으며 2020년경에는
거의 우주의 별만큼이나 많은 44제타바이트(44조 기가바이트)를
생성하고 복사하게 될 것입니다.

이렇게 데이터가 증가하게 된 이유는 데이터 생성 방식과 데이터
구성 요소에 지대한 변화가 있었기 때문입니다. 얼마 전까지만 해도
시스템에서 대부분의 데이터를 생성하고 데이터베이스에 구조화된
데이터로 저장했습니다. 이러한 데이터는 꾸준히 예측 가능하게
증가했습니다. 가령 100,000개의 아이템을 팔면 데이터베이스
테이블에 100,000개의 행이 있게 됩니다. 그리고 이런 데이터에 관심이
있는 유일한 사람은 데이터베이스를 직접 다룰 줄 아는 IT 및 재무 팀
직원뿐이었습니다.

하지만, 오늘날에는 대부분의 콘텐츠가 데이터베이스 외부에서 생성되며
그 형식도 광범위합니다. 일부는 구조화되어 있지만, 비정형화된
콘텐츠도 많습니다. 이는 사람들이 엄청난 속도로 문서를 작성하고
사진을 찍고 비디오를 녹화하기 때문입니다. 소셜 및 센서 데이터까지
추가하면 그 증가율은 그냥 빠른 정도가 아니라 기하급수적으로
빨라집니다
데이터 준비 문제 완화