본문 바로가기

Activity/책 리뷰

[리뷰/책] 《파이썬 라이브러리를 활용한 텍스트 분석》

반응형

한 줄 요약 : 텍스트 데이터를 집중적으로 파고드는 파이썬 활용 도서

 


 

《파이썬 라이브러리를 활용한 텍스트 분석》

이번에 리뷰할 책은 《파이썬 라이브러리를 활용한 텍스트 분석》이다.

이전에 리뷰했던 《파이썬 라이브러리를 활용한 데이터 분석》과 시리즈처럼 보이지만 읽고 나니 《파이썬 라이브러리를 활용한 텍스트 분석》(이하 '텍스트 분석')이 심화과정으로 보는게 맞는 것 같다.

《파이썬 라이브러리를 활용한 데이터 분석》과 공통점
1. 로우 데이터를 활용가능하게 정제하는 방법을 알려준다
2. 정제된 데이터를 목적에 맞게 활용할 때 유용한 라이브러리를 알려준다

 

파이썬 및 데이터 처리에 대해 다루는 다른 도서들과 비슷하게 커뮤니티에서 자주 언급되는 라이브러리를 사용한다.

라이브러리의 사용법을 몰랐다면 처음 다루는 것에도 부담없게 상세한 예제와 설명도 함께 수록되어 있다.

라이브러리 활용에 익숙하다면 기존에 본인이 사용하던 방식과 어떻게 다른지, 활용 팁을 배울 수 있다.

 


《파이썬 라이브러리를 활용한 데이터 분석》과 차이점
1. 데이터 중 텍스트만을 전문적으로 다루고 있다
2. 파이썬 기초 문법은 다루지 않고 있다(=좀 더 숙련자를 위한 책)

 

'텍스트 분석'은 일단 파이썬 기초 문법을 다루고 있지 않다. 파이썬 기초 문법에 익숙하지 않다면 기본서와 함께 봐야 한다.

문법을 다루고 있지 않다는 점이 내겐 좋았다. 심화 학습을 하길 원해서 구매한 책에 기초 문법이 절반넘게 실려있고, 실제 배우고 싶던 내용은 채 절반이 되지 않는 책도 많았기 때문이다.

그리고 '텍스트 분석'은 '텍스트'라는 주제에 심도있게 빠져들 수 있다. 책은 지면이 한정되어 있다. 그래서 소리, 사진, 영상 등 '데이터'라는 포괄적인 주제에 대해 다룰 경우 깊이감있게 다루기가 어렵다. 하지만 '텍스트 분석'이라는 제목에 걸맞게 텍스트 분석에 대해 심도있게 다룬다. 다만, 번역서의 특성상 다루는 자료가 한국어가 아닌 영어를 기반으로 하고 있어서 아쉬움이 남는다. 이 점은 파이썬 커뮤니티가 활발하기 때문에 한국어 텍스트 분석 라이브러리도 찾아보면 동일하게 배울 수 있을 듯 하다.

 

 

《파이썬 라이브러리를 활용한 텍스트 분석》 장점
1. 실습 예제를 구글 코랩에서 테스트해볼 수 있게 구성되어 있다. 물론 파이썬을 포함한 개발환경을 직접 구성해서 테스트해볼 수도 있다.
2. 전공서적처럼 딱딱하지 않지만 그와 비슷하게 깊이감 있는 심화 학습이 가능한 구성이 좋았다.

3. 머신러닝에 대해서도 살짝 경험할 수 있어서 다음에 무엇을 배우면 좋을지 방향성 설정하기 좋았다.


일반적은 파이썬 활용 데이터 입문서를 보면 파이썬 문법에 대한 설명이 책의 절반이고, 나머지 절반은 시각화 라이브러리 활용 예제 몇개 다루는 식으로 구성되어 있다. 하지만 《파이썬 라이브러리를 활용한 텍스트 분석》은 다양한 데이터 중 '텍스트'에 초점을 맞춰서 목표로 하는 영역을 깊이있게 볼 수 있다.

 

텍스트 데이터는 정형화된 자료와 달리 단어 하나에도 전체 의미가 달라지곤해서 숨은 의미, 주제를 찾기가 쉽지 않다.
그래서인지 이 책에선 '비지도 학습' 같은 머신러닝 영역도 다루고 있다. 물론 데이터 수집(크롤링), 정제와 같은 일반적인 내용도 담고 있다. 

 

산더미 같은 데이터 중 텍스트 데이터를 추출하고, 텍스트 데이터를 가공하여 최종 결과물까지 만드는 하나의 사이클을 경험할 수 있는 것이다.

 

 


"한빛미디어 <나는 리뷰어다> 활동을 위해서 책을 제공받아 작성된 서평입니다."
리뷰를 위해 한빛미디어에서 책을 제공받았지만 주관적인 생각을 그대로 적었습니다.

 

반응형