본문으로 바로가기

TIL 2021-11-09 Python Pandas, Spam Filtering

category TIL 2021. 11. 9. 22:17

Pandas는 분류 데이터를 쉽게 작업할 수 있도록 해주는 패키지다.

 

read_csv 함수를 통해서 csv를 Dataframe 형식으로 가져올 수 있고

 

head를 통해 처음 5개의 행을 볼 수 있다.

 

to_csv()를 통해서 csv로 반환할 수 있다.

 

파이썬의 dict를 다시 Dataframe으로 변환할수도 있으며

pd.DataFrame([(k,v)for k,v in result.items()], columns=['id','label'])

이런식으로 실 데이터와 column값을 지정해주면된다.

 

NTLK는 자연어처리 패키지로

 

Classification

 

Tokenization

 

Stemming

 

tagging

 

parsing

 

semantic reasoning을 할 수 있다고 한다.

 

현재 스팸 필터링 기계학습 프로젝트를 하고 있는데,

 

실제로 사용하는 요소는 Tokenization과 stemming이다.

 

Tokenize는 너무나 당연하게도 영어 원문을 단어단위로 나누는데 사용하는 것이고,

 

Stemming은 어간추출이라고 하는데 이를 통해서 동사의 과거형을 모두 현재형으로 되돌리는 작업을 할 수 있다.

 

 

 

'TIL' 카테고리의 다른 글

TIL 2021-11-11 Puppeteer와 Cheerio  (0) 2021.11.11
TIL 2021-11-10 ICMP 1  (0) 2021.11.10
TIL 2021-11-06 Next.js12  (0) 2021.11.06
TIL 2021-11-05 useInfiniteQuery와 Cursor Pagination, Intersection Observer Hook  (0) 2021.11.05
TIL 2021-10-20 IP2  (0) 2021.10.20