프로젝트 메인이미지

수행 내용
- TMDB API를 활용해 영화 제목, 장르, 줄거리, 키워드 등 메타데이터를 수집하고 구조화
- 장르·키워드·시놉시스 기반 텍스트를 통합한 콘텐츠 특징 벡터 생성
- TF-IDF로 각 영화의 텍스트 표현을 수치화하고, 코사인 유사도를 이용한 Top-N 유사 영화 추천 알고리즘 구현
- 추천 다양성과 품질을 평가하기 위해 추천 결과를 시각화하고 예제 사용자 시나리오 기반 평가 수행
사용기술
- 모델/라이브러리: Scikit-learn (TF-IDF Vectorizer, cosine_similarity)
- Python 기반 텍스트 전처리 모듈(정규표현식 등)
- 데이터/검색: Kaggle dataset, TMDB API, 콘텐츠 기반 필터링, TF-IDF 벡터화
, 코사인 유사도 기반 Top-N 검색
- 학습 환경: Jupyter Notebook, Python 환경 (Pandas, NumPy)
- 기타: 데이터 정제/통합, EDA, 시각화(Matplotlib)
문제 해결
저는 영화 추천 시스템을 만들기 위해 TMDB API에서 장르, 키워드, 줄거리 등의 정보를 가져와 사용했습니다.
그런데 API로 받아오는 데이터는 항목별로 누락이 많고, 영화마다 장르나 키워드가 다르게 표시되는 등 스키마가 일관되지 않아 그대로는 추천 모델의 입력값으로 사용할 수 없는 문제가 있었습니다.