본문 바로가기

Activity/책 리뷰

[리뷰/책]《데이터 품질의 비밀》

반응형

한 줄 요약 : 데이터 처리 품질을 높이고 싶다면 또는 데이터 처리 프로세스를 수립해야한다면 참고하기 좋은 책

 


개발조직에서 개발과 운영은 하나처럼 동작하는 '데브옵스(DevOps)'라는 개념이 일반화됐다.

물론 안정적인 운영을 위해 수많은 시행착오를 거쳤고, 안정화가 됐다.

 

자연스럽게 이런 흐름이 데이터 분야에도 일어나고 있다.

데이터옵스(DataOps)
기업 데이터에 대한 깊이 있는 인사이트를 얻기 위해 DevOps 접근법을 이용하는 데이터 관리 방식
출처 : HPE(Hewlett Packard Enterprise)

이번에 리뷰할 《데이터 품질의 비밀》가 데이터옵스(DataOps)를 다루는 가이드북이다.

 

보통의 데이터 입문서는 정제되어 있는 데이터를 라이브러리,패키지를 이용해 시각화하는 흐름으로 구성되어 있다.

하지만 《데이터 품질의 비밀》을 읽으며 느낀 특징은 아래와 같다.

1. 데이터 정제를 왜 잘 해야하는지

2. 찌꺼기데이터를 필터링 하는 방법과 과정

3. 데이터 처리 프로세스를 구축하기 전, 구축하는 중, 구축 후 고민할 점

 

저자는 데이터 플랫폼(서비스)를 제공할 때 과정(레이어)을 제시한다.

그리고 각 단계에서 발생하는 문제점과 대응 경험을 전달한다.

 

게다가 SQL쿼리를 통해 문제발생 전에 문제를 탐지하는 방법도 알려주고 있다.

 

실제 서비스 업체의 사례도 다양하게 수록되어 있어서 데이터 아키텍처, 프로세스들을 엿볼수도 있다.

 

《데이터 품질의 비밀》에서 기억에 남는 부분

9장 '현실에서의 데이터 품질 : 전문가 대담과 사례 연구'

전문가들이 '데이터 품질' 주제의 토론하는 내용이 담겨있었기 때문이다.

 

처음에는 그냥 눈으로 훑어봤다.

다시 읽을 때는 질문을 보고 내 생각을 짧게 정리한 후 저자의 답변과 비교하며 읽었다.

같은 문제에 대해 '이렇게 문제를 풀어나갈 수도 있구나'하는 재밌는 경험이었다.

 

《데이터 품질의 비밀》 장점

데이터를 가공하다보면 경험하게 될 문제들이 이 책에 상세히 나열되어 있다.

즉, 책을 통해 향후 겪게 될 문제상황들을 사전에 대비할 수 있다.

 

 

《데이터 품질의 비밀》 전체를 관통하는 주제: '데이터 다운타임'을 줄이자

데이터 다운타임 : 데이터가 누락됐거나, 부정확하거나, 데이터에 오류가 있어 생기는 문제.

즉, '데이터 다운타임'은 신뢰할 수 없는 데이터가 너무 많을 때 일어난다.
데이터 품질을 개선하려면 기술적인 측면뿐 아니라 거버넌스와 조직 문화 같은 다른 많은 영역을 고려해야 한다.

 

개발을 하면서도 관리가 안 된 서비스(코드)는 코드를 추가/수정할 때마다 또다를 버그를 만들어내는 문제의 근원이다.

개선 패치를 빠르게 적용하지 못할경우 서비스가 '다운'되는 것이다.

 

이 책을 읽고 노하우를 체득하여 끔찍한 경험을 하는 일이 줄었으면 좋겠다.

 

 

 


"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."
리뷰를 위해 한빛미디어에서 책을 제공받았지만 주관적인 생각을 그대로 적었습니다.

반응형