◈ 이 책에서 다루는 내용 ◈
◆ 딥러닝에 대한 포괄적인 지식을 제공하기 위해 딥러닝 모델 기반의 훈련 개선 전략, 합성곱 신경망(CNN), 순환 신경망(RNN), 그래프 신경망(GNN) 등에 대해 심도 있게 알아본다.
◆ 최신 연구 성과를 파악할 수 있도록 데이터 마이닝의 트렌드 및 각광받는 연구 분야를 다룬다. 텍스트, 시공간 데이터, 그래프/네트워크 등 리치 데이터 유형, 감정 분석, 진실 발견, 정보 전파 등 데이터 마이닝 응용 방법론, 데이터 마이닝 방법론 및 시스템, 사회적 가치를 고려한 데이터 마이닝에 대해 소개한다.
◆ 데이터에서 여러분이 필요로 하는 최상의 가치를 추출하기 위한 개념과 기법에 대해 살펴본다.
◈ 이 책의 구성 ◈
이 책의 1, 2, 3판 출간 이후 데이터 마이닝 분야에서 다수의 큰 진전이 있었다. 특히 정보 네트워크, 그래프, 복합 구조, 데이터 스트림 등 새로운 유형의 데이터 처리에 특화된 데이터 마이닝 방법론, 시스템, 애플리케이션이 개발됐다. 이러한 빠른 발전과 새롭게 추가된 풍부한 기술을 한 권의 책에 담기는 어려우므로 우리 공저자는 나름의 대안을 찾아야 했다. 결국, 이번 4판에서는 책의 범위를 확장하는 대신 핵심 주제를 충분한 범위와 깊이로 다루고, 복잡한 데이터 유형과 분석 환경 등 해당 주제에 좀 더 집중하기로 결정했다.
4판은 지난 1~3판의 내용을 큰 폭에서 개정하고, 데이터 마이닝 기술 부분을 재구성했다. 특히, 다양한 데이터 유형에 대한 마이닝 방법론을 처리하는 핵심 기술 자료가 크게 확장되고 개선됐다. 우리 공저자는 책을 간결하면서도 최신 상태로 유지하기 위해 다음 방법으로 개정 작업을 진행했다. (1) 3판에서 두 개 장으로 구성된 ‘데이터 이해’와 ‘데이터 전처리’를 하나의 장, ‘데이터, 측정, 데이터 전처리’로 통합했다. 또, 기존 ‘데이터 시각화’는 개념의 이해가 쉽고, 다른 전문 데이터 시각화 서적에서 다뤘으며, 소프트웨어 도구가 웹에서 널리 사용 가능하므로 제외했다. (2) 3판의 ‘데이터 웨어하우징과 온라인 분석 처리’와 ‘데이터 큐브 기술’ 장을 하나의 장으로 병합했으며, 유용성이 다소 떨어지는 데이터 큐브 계산 방법과 데이터 큐브 확장을 생략하고, ‘데이터 레이크(lake)’라는 새로운 개념을 추가했다. (3) 3판의 주요 데이터 마이닝 방법론 장인 패턴 발견, 분류, 클러스터링, 이상치 분석은 내용을 향상시키고 최신의 트렌드를 반영해 업데이트했다. (4) 새로운 장으로 ‘딥러닝’을 추가했으며, 신경망과 딥러닝 방법론에 대한 체계적인 소개를 포함시켰다. (5) 마지막 장인 ‘데이터 마이닝 트렌드 및 최신 연구 분야’는 완전히 다시 작성했으며, 데이터 마이닝의 다양한 고급 주제를 종합적이며 간결하게 다뤘다. 마지막으로, (6) 이 책의 내용을 이해하는 데 필요한 기본적인 수학적 배경 지식을 부록으로 포함시켰다.
◈ 옮긴이의 말 ◈
1970년대의 기나긴 AI 침체기를 지나 1980년대 AI 부흥기에 등장한 데이터 마이닝은 머신 러닝과 딥러닝의 기반 기술로서, 데이터에서 유의미한 패턴과 지식을 추출해 AI 모델의 학습 효율과 성능 강화에 기여해왔다.
2000년대에 데이터 마이닝은 데이터 전처리, 특성 추출, 차원 축소 등 데이터의 품질을 높이고 효율적 분석 프로세스를 의미했으며, 이상치 감지, 연관 규칙 탐색, 분류 및 클러스터링 등 데이터 마이닝의 전통적인 접근 방식은 현대적인 머신러닝 기법이 돼 데이터에 대한 이해 수준을 높이고 알고리듬의 예측 정확성을 높이는 데 도움을 줬다.
2010년 이후 데이터 마이닝 기술은 현대 머신러닝 및 딥러닝 모델이 더욱 정교하고 신뢰성 있는 결과를 생성하도록 지원하며, 챗GPT 등 생성형 AI을 포함한 다양한 응용 분야가 발전하고 성장하기 위한 기반 기술로서 역할을 수행하고 있다.
데이터 과학자 및 데이터 엔지니어 등 연구자는 데이터 마이닝의 개념과 기법을 이해함으 로써 최신의 생성형 AI의 발전에 필요한 데이터 기반 통찰과 최적화 방법을 제공할 수 있으 며, 현대 AI 모델이 지닌 잠재력을 극대화할 수 있다.
지난 3판 이후 거의 10여 년 만에 출간된 이번 4판은 그동안 있었던 AI 산업과 데이터 분 석 기법의 변화를 반영했으며, 데이터 분석의 기초라고 할 수 있는 데이터 수집 및 전처리, 데이터 웨어하우스, 단순 또는 복잡한 데이터에서의 패턴 마이닝, 지도식 기법인 분류와 회귀분석, 비지도식 기법인 클러스터링 기법을 상세히 설명한다.
책의 후반부에서는 딥러닝 구현을 위한 기반 기술인 신경망 구현, 피드포워드와 역전파, 활 성 함수 및 손실 함수, 엔트로피, 오토인코더 등 전문적인 주제와 다양한 데이터 맥락에서의 이상치 탐색법, 최근 학계 및 산업계에서 주목받는 연구 주제도 알아본다.
이번 『데이터 마이닝 개념과 기법 4/e』은 데이터 분석가는 물론이고, 최신의 생성형 AI 연 구자에게 필요한 지난 40여 년간의 데이터 마이닝 개념과 기술을 이해할 수 있는 소중한 기회가 될 것이다.