TIL 2021-11-21 scikit learn, lemmatization, ffmpeg
scikit learn scikit learn은 supervise learning, unsupervise learning을 지원하는 머신러닝 라이브러리다. 데이터분석을 위한 알고리즘들을 지원해주는데, 스팸 메일 필터링을 위해서 Naive Bayes Classifier을 사용하기로 하였다. NB도 Multinomial, 베르누이, 가우시안 등 여러 방법을 지원하는데, 스팸 메일 필터링에 사용하려고 다항 Multinomial NB를 사용하였다. Classification 말고도, Clustering, Dimensionality Reduction 을 위한 알고리즘들이 미리 구현되어 있으니 필요하다면 가볍게 가져가 사용할수 있을 거같다. Stemming과 Lemmatization Stemming은 뒤의 몇 글자..