[사이람 뉴스레터 37호] 자동 토픽 분석 플러그인 무료 배포! |
작성자 | 사이람 | ||||
날짜 | 2018-03-12 | ||||
조회수 | 136874 | ||||
첨부 | 첨부파일이 없습니다. | ||||
안녕하세요. 소셜네트워크분석 전문기업 ㈜사이람입니다.
NetMiner를 활용하여 SNS, 뉴스, 논문 등의 text 데이터에서 토픽을 분석하고, 분석 결과를 다양한 형태로 제공하는 ‘자동 토픽 분석 Plug-in’을 소개하고 무료로 여러분께 제공해 드리려 합니다.
토픽 분석(Topic Modeling)은 기계학습 기법 중 하나로 문서 데이터에 내재된 토픽을 파악하여 문서를 분류하거나 토픽을 구성하는 단어 클러스터를 도출할 수 있게 해줍니다. SNA의 2-모드 네트워크 데이터와 연계하여 활용할 수 있는 분석방법으로 더 풍부한 비정형 텍스트 분석을 위해 최근 많은 연구자들과 분석가들이 활용하고 있습니다.
□ 자동 토픽 분석Plug-in이란?
단 2번의 클릭만으로 아래의 복잡한 토픽 분석 과정을 한 번에 처리하실 수 있습니다.
자동 토픽 분석 Plug-in은 토픽 모델링 기법 중 하나인 잠재 디리클레 할당(LDA) 알고리즘을 통해 토픽을 추출하고 토픽별 주요 단어, 문서 클러스터링 등을 다양한 시각화 결과물과 함께 제공합니다.
□ 자동 토픽 분석Plug-in 분석 프로세스
○ 분석 데이터
2017년 말부터 큰 이슈를 불러 일으킨 ‘bitcoin’을 검색 키워드로 하여 2018년 2월 27일 기준 트윗글 6,088개를 수집하여 플러그인 실행을 위한 샘플 데이터로 활용하였습니다.
○ 플러그인 실행 결과
① 문서 분류 : 토픽별 문서 분류 결과를 토대로 전체 문서에서의 각 토픽의 비중을 파악
- 비트코인과 관련하여 작성된 트윗글을 6개의 토픽으로 분류한 결과 - 전체 약 6,000개 트윗글에는 6개의 토픽이 약 17%의 비슷한 비중으로 존재하고 있음을 확인할 수 있음
② 토픽 별 주요 단어(워드클라우드) : 토픽별 단어의 영향력(할당 확률)이 클수록 중요한 단어로 표시
- 토픽 별로 할당확률이 큰 단어는 크게 표시 - 단어의 크기만 의미가 있으며 색상, 위치는 의미 없음
③ 토픽 별 단어 네트워크 맵(+원문 보기)
- 토픽 별 할당확률이 높은 상위 100개 단어로 단어 네트워크를 구성(빨간 점( )은 각 단어를 뜻 함) - 단어 네트워크는 단어가 다른 단어와 문서에서 얼마나 가깝게 등장하였는지에 따라 생성(Word distance – Window size 기준) - 가깝게 등장한 단어끼리 링크가 생성됨
- 토픽에 대한 할당확률이 높은 단어일수록 의 크기가 큼
- 추가로 위의 네트워크 맵에서 특정 단어를 선택하면 해당 단어가 어떤 문서와 문장에서 어떻게 쓰였는지 확인할 수 있음
<단어(Venezuela)가 등장한 원문 보기>
④ 토픽-키워드 네트워크 : 추출된 토픽을 이루고 있는 주요 키워드를 토픽-키워드 간 네트워크 형식으로 시각화
- 토픽 분석 결과, 토픽 별로 영향력이 높은 단어를 선택하여 시각화 - 빨간 점( )은 토픽을 뜻하며, 노란색 글자는 토픽명(연구자가 주요 단어를 참고하여 주관적인 판단 하에 결정), 파란 점()은 토픽 별 주요 단어를 뜻 함 - 선 굵기는 주요 단어()의 해당 토픽( )에 대한 할당확률로서, 높을수록 두껍게 표시
NetMiner의 Semantic Network 분석 기능 및 자동 토픽 분석 플러그인을 활용하여 비트코인 관련 트윗글에 숨어 있는 주제와 주요 키워드를 확인할 수 있었습니다. 보다 자세한 내용과 플러그인 사용 방법 및 지원 라이선스 사양을 확인하시려면 블로그를 참고해 주시기 바랍니다. 감사합니다.
|
다음글 | [알림] 사무실 이전 안내 | ||||