서브메뉴

본문

피처 엔지니어링, 제대로 시작하기 (데이터에서 효과적으로 정보를 추출하는 원리와 기법)
피처 엔지니어링, 제대로 시작하기 (데이터에서 효과적으로 정보를 추출하는 원리와 기법)
저자 : 앨리스 젱|아만다 카사리
출판사 : 에이콘출판
출판년 : 2019
정가 : 25000, ISBN : 9791161752426

책소개


머신 러닝의 결과는 데이터를 얼마나 잘 표현하는 피처를 추출하는가에 달려있다고 할 수 있다. 그러나 머신 러닝을 위한 다양한 알고리즘이나 도구에 대한 안내서는 많이 있는 것에 비해서 데이터의 피처를 어떻게 추출하고 사용할 도구에 맞게 변환하고 처리할 것인지 알려주는 안내서는 거의 없다. 이 책은 수치형 데이터, 범주형(카테고리) 데이터를 다루는 기법뿐만 아니라 텍스트, 이미지, 그리고 고차원 데이터에서 머신 러닝을 위해 좋은 피처를 추출하는 기법과 그 원리를 설명하고 실습을 통해 직관을 얻을 수 있도록 해준다.

목차


1장. 머신 러닝 파이프라인
__데이터
__과제
__모델
__피처
__모델 평가

2장. 숫자를 위한 멋진 트릭
__스칼라, 벡터, 공간
__카운트 처리
____바이너리 변환
____양자화 또는 비닝
__로그 변환
____로그 변환의 역할
____거듭제곱 변환: 로그 변환의 일반화
__피처 스케일링 또는 정규화
____min-max 스케일링
____표준화(분산 스케일링)
____ℓ2 정규화
__상호작용 피처
__피처 선택
__요약
__참고 문헌

3장. 텍스트 데이터: 플래트닝, 필터링, 청킹
__bag-of-x: 자연어 텍스트를 평면 벡터로 변환
____BoW
____bag-of-n-grams
__정제된 피처를 위한 필터링
____불용어
____빈도 기반 필터링
____어간 추출
__의미의 단위: n-grams에서 구문까지
____파싱과 토큰화
____구문 탐색을 위한 연어 추출
__요약
__참고 문헌

4장. 피처 스케일링의 효과: BoW에서 tf-idf로
__tf-idf: BoW 비틀기
__tf-idf 테스트
____분류 데이터셋 생성
____tf-idf 변환으로 BoW를 스케일링
____로지스틱 회귀를 이용한 분류
____일반화로 로지스틱 회귀 튜닝
__심층 분석: 무슨 일이 일어나고 있는가?
__요약
__참고 문헌

5장. 범주형 변수: 로봇닭 시대에 달걀 개수 세기
__범주형 변수 인코딩
____원-핫 인코딩
____더미 코딩
____이펙트 코딩
____범주형 변수 인코딩의 장단점
__대규모 범주형 변수 처리
____피처 해싱
____빈 카운팅
__요약
__참고 문헌

6장. 차원 축소: PCA로 데이터 팬케이크 납작하게 만들기
__직관
__수식 유도
____선형 투영법
____분산과 경험적 분산
____주성분: 첫 번째 식
____주성분: 행렬-벡터식
____주성분의 일반적인 해
____피처 변환
____PCA 구현
__PCA의 활약
__화이트닝과 ZCA
__PCA의 고려 사항과 한계
__사용 예
__요약
__참고 문헌

7장. k-means 모델 스태킹을 통한 비선형 피처 생성
__k-means 클러스터링
__곡면 분할로서의 클러스터링
__분류를 위한 k-means 피처 생성
____조밀한 피처 생성
__장단점과 몇 가지 사항들
__요약
__참고 문헌

8장. 피처 생성 자동화: 이미지 피처 추출과 딥러닝
__가장 단순한 이미지 피처(그리고 이것이 동작하지 않는 이유)
__수동 피처 추출: SIFT와 HOG
____이미지 그래디언트
____그래디언트 오리엔테이션 히스토그램
____SIFT 아키텍처
__심층 신경망으로 이미지 피처 학습
____완전 연결 계층
____컨볼루션 계층
____ReLU 변환
____응답 정규화 계층
____풀링 계층
____AlexNet의 구조
__요약
__참고 문헌

9장. 다시 피처로: 학술 논문 추천 시스템 구축
__항목 기반 협업 필터링
__첫 번째 단계: 데이터 가져오기, 정제하기, 피처 파싱하기
____학술 논문 추천 시스템: 단순 접근법
__두 번째 단계: 피처 엔지니어링과 더 똑똑한 모델
____학술 논문 추천 시스템: 테이크 2
__세 번째 단계: 추가 피처 = 추가 정보
____학술 논문 추천 시스템: 테이크 3
__요약
__참고 문헌

부록 A. 선형 모델링과 선형대수 기초
__선형 분류 개관
__행렬 분석
____벡터에서 부분공간으로
____특이값 분해
____데이터 행렬의 기본적인 네 가지 부분공간
__선형 시스템 풀이
__참고 문헌