음성합성 프로젝트 3

[공경진] An Improved StarGAN for Emotional Voice Conversion:Enhancing Voice Quality and Data Augmentation 논문 리뷰 ②

저는 지능시스템 졸업프로젝트와 교내 공학경진대회 출품작으로 '프로젝트 다솜'을 진행하고 있습니다. 저희 다솜은 어린 아이들에게 동화책을 읽어주는 TTS 서비스를 기획중입니다. 부모님의 목소리 등 원하는 사람의 목소리로 책을 실감나게 읽어주는 딥러닝 서비스를 만드는 것이 저희 다솜의 목표입니다. 그 중에서도 저는 음성에 감정을 입히는 Voice Conversion 파트를 담당하여 진행하고 있습니다. 이번 프로젝트에 AutoVC를 사용하려 했으나, 좀 더 우리 프로젝트에 맞는 Emotional Voice Conversion Model을 찾게 되어 해당 모델에 대해 공부하게 되었습니다. 해당 논문은.. 모델이 따로 github에 공개되어 있지 않습니다. 그래서 이번 프로젝트 기간동안 해당 논문의 전신인 Sta..

[공경진]Voice Conversion 기술 정리

저는 지능시스템 졸업프로젝트와 교내 공학경진대회 출품작으로 '프로젝트 다솜'을 진행하고 있습니다. 저희 다솜은 어린 아이들에게 동화책을 읽어주는 TTS 서비스를 기획중입니다. 부모님의 목소리 등 원하는 사람의 목소리로 책을 실감나게 읽어주는 딥러닝 서비스를 만드는 것이 저희 다솜의 목표입니다. 그 중에서도 저는 음성에 감정을 입히는 Voice Conversion 파트를 담당하여 진행하고 있습니다. Vocie Conversion voice Conversion, 즉 음성합성 기술의 기본적 개념에 대해 알아보도록 하겠습니다. 음성합성 기술은 source speaker의 음성을 target speaker의 음성으로 변환하는 기술입니다. 음성에서 언어적인 내용 즉, contents는 변하지 않고, 오직 화자의 음..

[지능 시스템 졸업 프로젝트] 프로젝트 일지 ①

프로젝트가 한 달 남은 시점이지만, 한 달 동안 효율적인 프로젝트 관리를 위해 일지를 써보고자 합니다! 프로젝트 설명 지능시스템 캡스톤 디자인 프로젝트에서는 RelGAN이라는 생성모델과 KoBERT라는 자연어 처리 모델, TTS 기술을 사용하여, 문장에 감정을 담아 실감나게 읽어주는 TTS 서비스를 제작하고자 진행하고 있습니다. 조금 더 자세히 설명드리자면 KoBERT 모델을 사용하여 텍스트 문장에서 감정을 추출하고, TTS를 통해 해당 텍스트를 Speech로 변환합니다. 마지막으로 변환한 Speech에 RelGAN을 사용하여 KoBERT에서 추출한 감정을 입혀 실감나는 TTS 서비스를 제작하고자 합니다. 프로젝트 현위치 현재, KoBERT 모델의 경우 다른 팀원이 도맡아 Pre-Training을 진행하..