TV 드라마나 유아용 애니메이션과 같은 비디오 컨텐츠는 종종 시리즈물로 제작된다. 시리즈물의 경우, 여러 에피소드에 걸쳐 등장인물과 배경이 공유되고, 이야기 구조가 반복적으로 쓰인다. 또한, 비디오 컨텐츠에서는 이야기가 대개 영상과 대사를 통해 전달되는데, 영상과 대사는 표현 단위(영상: 픽셀, 대사: 단어)가 나타내는 정보 수준이 크게 다르고, 동일 내용에 대한 표현의 다양성이 매우 크다. 이에, 본 고에서는 비디오 컨텐츠로부터 스토리를 다루기 위한 딥러닝 기반 프레임워크를 제안한다. 먼저, 스토리 표현을 위해 등장인물, 등장인물의 정서, 대사를 핵심정보로 가정하였다. 영상과 대사의 시퀀스로부터 스토리 표현을 위한 정보를 추출하기 위해 컨볼루션 신경망 (CNN), R-CNN, word2vec과 같은 다수의 딥 러닝 기술과 단어-정서 연합 정보를 다루는 EmoLex를 통합적으로 사용하였다. 실제 예로, 유명한 유아용 애니메이션인 '뽀롱뽀롱 뽀로로'를 대상으로 출시된 DVD 내 에피소드들에 대해 분석을 수행하였다. 분석 결과, 0.7 정도의 AUC PR (Area under the Curve Precision-Recall)의 등장인물 인식율을 보였으며, 대사정서 정보로부터 4 개의 대표적인 정서 스토리 유형을 얻고, 10% 이하의 예외를 보여 제안한 프레임워크의 적절성을 뒷받침하였다.