Cloud

데이터 레이크? 웨어하우스? 마트? 중요해지는 빅데이터 관리, 제대로 알고 보기

2024.07.08

  오늘날의 기업은 방대한 양의 데이터를 계속 축적하고 있으며 이에 따라 데이터 관리 시스템도 속속 도입되고 있습니다. 또한 빅데이터와 인공지능 기술의 중요성이 커지면서, 여러 영역의 다양한 인사이트가 만나 새로운 가치를 만들어내기 시작했습니다. 이렇듯 데이터의 가치는 오늘날 점점 더 주목받고 있습니다. 오늘은 데이터 관리 시스템 관련 용어들을 함께 살펴보고 각 용어들의 개념에 대해 정리해보도록 하겠습니다.

 

 

데이터 레이크, 데이터 웨어하우스, 데이터 마트

  빅데이터 관련 글을 보다 보면 데이터 웨어하우스, 데이터 마트, 데이터 레이크 등의 용어를 많이 보셨을 것입니다. 이들은 모두 데이터 관리 시스템이지만, 각각의 특징과 목적이 다릅니다.

1. 데이터 레이크(Data Lake)

  데이터 레이크는 가공되지 않은 대량의 로우 데이터(raw data)를 저장하는 ‘호수’와 같은 공간입니다. 빅데이터의 90%는 비구조적 데이터 형태를 지니는데, 데이터 웨어하우스에는 데이터를 저장하기 전 데이터를 미리 구조화, 정형화해야 하기 때문에 원본 그대로의 데이터를 저장할 수 없습니다. 데이터 레이크에는 데이터를 형식에 구애받지 않고 원본 그대로 저장할 수 있기 때문에 이러한 비구조적 데이터 또한 대규모로 저장할 수 있습니다. 또한 데이터 웨어하우스보다 비용 대비 더 큰 저장 용량을 활용할 수 있고, 실시간으로 업데이트되는 데이터들을 수집하기 용이합니다.

  데이터 레이크에 저장된 다양한 데이터들은 머신러닝이나 분석 등에 활용하여 비즈니스 가치를 창출하는 데 폭넓게 활용할 수 있습니다.

 

2. 데이터 웨어하우스(Data Warehouse)

  데이터 웨어하우스는 데이터를 정제된 형태로 처리 및 변환하여 관리하는 시스템입니다. 사전에 정의된 목적에 따라 선별된 중요 데이터를 장기 보존하는 것에 최적화되어 있습니다. 데이터를 효율적인 형태로 정형화하여 저장해 두기 때문에 수많은 사용자에게 동시에 신뢰성 높은 데이터를 신속하게 데이터를 제공할 수 있습니다.

  데이터 웨어하우스는 대량의 데이터를 보존하는 데 주요 목적이 있기 때문에 소량의 데이터를 자주 읽고 쓰는 데는 적합하지 않습니다. 데이터 보존을 위해서는 과부하를 방지해야 하기 때문에, 별도의 데이터 마트를 만들어 필요한 데이터를 전송해 분석, 프로젝트 등 목적에 맞게 활용하는 경우가 많습니다.

 

3. 데이터 마트(Data Mart)

  데이터 마트는 작은 데이터 웨어하우스로, 단일 주제 등에 초점을 맞춘 한정된 데이터를 모아 놓은 것입니다. 대량의 데이터가 있는 데이터 웨어하우스나 데이터 레이크의 데이터를 분석할 필요가 있을 때, 필요한 데이터를 추출해 별도의 데이터 마트를 만들어 사용합니다. 가져온 정보를 필터링하고 요약하는 등 가공하여 필요한 프로젝트에 제한적으로 사용한 후, 사용이 완료된 데이터 마트는 폐기하는 방식으로 활용하기도 합니다.

 

 

데이터 레이크 VS 데이터 웨어하우스, 우리 기업에 적합한 시스템은?

  이제 데이터 레이크와 데이터 웨어하우스를 심층적으로 비교해 보겠습니다. 

  먼저 데이터 유형에 있어 데이터 레이크에는 정형, 반정형, 비정형 등 모든 종류의 데이터가 들어갈 수 있는 반면, 데이터 웨어하우스에는 정형 데이터만 저장할 수 있습니다. 데이터 레이크에는 모든 종류의 데이터가 저장되어 있는 반면, 데이터 웨어하우스에는 정제되어 신뢰도가 높은 데이터만 취급하여 상대적으로 데이터 품질이 좋습니다.

  데이터 레이크에는 필터링되지 않은 원시 데이터 그대로가 저장되는 반면, 데이터 웨어하우스는 정제된 형태의 데이터만 저장할 수 있습니다. 데이터 레이크는 폭넓게 데이터를 수집하고자 하는 목적이기에 데이터 수집에 사전에 정의된 목적이 없습니다. 그러나 데이터 웨어하우스에는 사전에 사용 목적이 정해져 있고 그에 부합하는 데이터만이 저장됩니다.

  데이터 웨어하우스가 확장이 어렵고 확장 비용이 많이 드는 반면, 데이터 레이크는 상대적으로 비용이 저렴하고 확장이 용이한 특성을 가지고 있습니다. 데이터 레이크에 저장된 데이터는 머신러닝, 데이터 분석 등 데이터 원본 그대로가 필요한 작업에 쓰이는 반면, 데이터 웨어하우스의 정제된 데이터는 데이터 시각화나 보고서 활용에 주로 활용됩니다.

 

 

데이터 레이크와 데이터 웨어하우스의 과제

  데이터 레이크에 있는 데이터는 정의되지 않는 것이 특징인데, 가치를 끌어올릴 수 있는 명확한 설계나 관리 없이 데이터를 수집만 하게 되는 경우 데이터 늪(Data Swamp)로 변질될 수 있습니다. 데이터 레이크에는 수많은 데이터가 저장되기 때문에 일부 데이터가 아예 사용되지 않을 가능성이 존재하게 되는데 이 현상이 심화된 것이 바로 데이터 늪입니다. 

출처: Kiran Donepudi

  데이터 늪은 그저 데이터의 덤핑 장소가 되어 데이터의 가치 있는 분석을 방해하며, 계속해서 데이터만 쌓여 유지 비용이 급증하게 됩니다. 따라서 데이터 레이크를 관리하는 메타 데이터와 거버넌스의 구축, 경험과 지식이 풍부한 사용자가 필요합니다.

  한편 데이터 웨어하우스는 실시간으로 생성되는 데이터들을 활용할 수 없고, 최신 트렌드인 머신러닝이 필요로 하는 비정형 데이터 처리에 적합하지 않은 시스템입니다. 또한 많은 시간과 비용이 드는 데에 반해 처음 정한 목적 이외에 다른 용도로 데이터를 활용하기 어렵습니다. 새로운 목적이 생기는 경우 그에 맞는 새로운 데이터 웨어하우스를 구축해야 하며, 데이터 웨어하우스의 숫자가 늘어날수록 운영 비용이 증가하고 아키텍처가 복잡해집니다.

  이를 해결하기 위해서는 두 시스템의 적절한 배합이 필요합니다. 대부분의 기업에서는 필요에따라 이 둘을 혼용하여 각 시스템의 장점을 취하며 데이터를 관리하고 있습니다. 이 두 가지는 각각 다른 용도에 맞게 최적화되어 있으므로, 함께 사용한다면 상호 보완적인 역할을 하며 데이터 관리에 도움을 줄 수 있습니다.

 

  데이터는 새로운 자원으로 평가받을 만큼 유용합니다. 데이터 기반으로 기업을 재편하려는 목표를 가지는 기업들도 많아지고 있습니다. 비즈니스의 성공이 데이터에 달렸다고 해도 과언이 아닌 시대, 데이터 수집과 관리에 대해서도 명확히 알아 두어 비즈니스에 적용해야 합니다.

  데이터 활용의 시작, 데이터 관리! 오늘 함께 배운 용어의 개념들과 함께 여러분의 데이터에 관한 인사이트가 한 걸음 더 나아간 계기가 되었기를 바랍니다.

 


 

컨설팅부터 비즈니스 모델 발굴까지

Digital One, For The Next | SK㈜ C&C

 

#데이터 #Data #용어모음집 #데이터마트 #데이터레이크 #데이터웨어하우스 #로우데이터 #데이터관리 #데이터저장 #빅데이터