TextMining - WordCloud 만들기

백엔드 프레임워크 & 언어/R

TextMining - WordCloud 만들기

anodos 2022. 2. 26. 21:22

# TextMining
# 1. R 버전 조회 - R 4.0 이상에서는 KoNLP 설치가 어려워짐.-> 버전 확인
R.version #4.1.2

# 2.Git에서 받기 위해 Tool 설치
install.packages("remotes")

# 3.Git에서 multilinguer 설치
remotes::install_github("mrchypark/multilinguer")

# 4.multilinguer library loading
library(multilinguer)

# 5.jdk 설치
install_jdk()

# 6.의존성 패키지설치
install.packages(c("hash", "tau", "Sejong", "RSQLite", "devtools", "bit", "rex", "lazyeval", "htmlwidgets", "crosstalk", "promises", "later", "sessioninfo", "xopen", "bit64", "blob", "DBI", "memoise", "plogr", "covr", "DT", "rcmdcheck", "rversions"), type = "binary")

# 7.koNLP 설치
remotes::install_github('haven-jeon/KoNLP', upgrade = "never", INSTALL_opts=c("--no-multiarch"))

# 8.KoNLP Library Loading
# 라이브러리 로딩
library(KoNLP)

# 9.분석대상 변수 할당
v1 <- "여러분 안녕하세요. 만나서 반갑습니다. 오늘은 Text Mining 시간이다. 즐거운 R시간 되세요."

# 10.명사추출 테스트
extractNoun(v1)

# 11.문재인 대통령 2021년 신년사 분석 https://www.korea.kr/news/policyNewsView.do?newsId=148882463
# text를 복사하여 ansi 인코딩으로 저장 : test.txt

# 12.워킹 디렉토리 확인하여 text 복사
getwd()

# 13.복사된 파일확인
list.files()

# 14.딕셔너리 지정

useSejongDic() ## 한글이 저장되어 있는 세종사전을 사용함을 알려준다.
#useNIADic()

# 15. 단어전에 원하는 명사 추가(option) ncn 타입으로 저장
mergeUserDic(data.frame(c("테스트"), c("ncn")))
mergeUserDic(data.frame(c("스마트"), c("ncn")))

# 16. text 불러오기
text1 <- readLines("test.txt")

# 17.명사추출
text2 <- extractNoun(text1)

# 18. 대괄호 안에 대괄호 치환 list형태를 vector 형태로
text3 <- unlist(text2)

# 19. 전처리 불용어 전처리
text4 <- gsub("되","",text3)
text4 <- gsub("등","",text4)

# 20. vector 요소의 길이가 5보다 작은 것 확인, 1보다 큰것만
text5 <- text4[nchar(text4) < 5]
text5 <- text5[nchar(text5) > 1]

# 21. 빈도수 체크 후 정렬 내림차순으로 (기본 오름차순)
text6 <- sort(table(text5),decreasing = T)

# 22. 상위 200개만 가져오기
text7 <- head(text6,200)

# 23. 워드클라우드 패키지 설치
install.packages("wordcloud2")

# 24 .libary load
library(wordcloud2)

# 25. WordCloud 시각화
wordcloud2(text7)

# 26. 결과확인

2021년도 신년사

2022년도 신년사

저작자표시 비영리 변경금지

'백엔드 프레임워크 & 언어 > R' 카테고리의 다른 글

dplyr 패키지-group_by, summarise 함수 (0)	2022.02.26
dplyr 패키지-mutate() 함수 심화 (0)	2022.02.26
dplyr 패키지-arrange(), mutate() 함수(정렬 및 파생변수 생성) (0)	2022.02.26
dplyr패키지-select() (원하는 열만 추출) (0)	2022.02.26
dplyr패키지-Filter(원하는 행만 추출) (0)	2022.02.26

현재글TextMining - WordCloud 만들기

진리를 향한 끊없는 혼의 동경

이 블로그는 IT전문가, 심리, 건강, 라이프해킹, 사용자경험 등 살아가는데 필요한 기술적, 심리적, 사회적 기술과 지식, 팁을 제공함으로 써 건강하고 행복한 미래를 만드는데 도움을 주기위해 만들어진 공간입니다.

로코드, raw-code, 베르누이분포, TeamViewer, no-code, 노코드, Teamviewer설치시 오류#알약, 티머니잔대가리, T머니반독점, 54%, 마음훈련, 팀뷰어, 설치오류, 잘모른면뺑이침, 모바일티머니, Oracle19c, 충전형티머니, 티머니공돈먹기, USIM교체, 6계명,

Today :
Yesterday :

진리를 향한 끊없는 혼의 동경