프로젝트 개요
지능시스템 캡스톤 디자인 프로젝트에서는 RelGAN이라는 생성모델과 KoBERT라는 자연어 처리 모델, TTS 기술을 사용하여, 문장에 감정을 담아 실감나게 읽어주는 TTS 서비스를 제작하고자 진행하고 있습니다. 조금 더 자세히 설명드리자면 KoBERT 모델을 사용하여 텍스트 문장에서 감정을 추출하고, TTS를 통해 해당 텍스트를 Speech로 변환합니다. 마지막으로 변환한 Speech에 RelGAN을 사용하여 KoBERT에서 추출한 감정을 입혀 실감나는 TTS 서비스를 제작하고자 합니다. 이 중 저는 RelGAN을 통해 음성에 감정을 입히는 부분을 도맡아 하고 있습니다.
프로젝트 이슈
(1 x 256 x 256)을 input값으로 주어지고, 내가 원하는 결과값 또한 (1 x 256 x 256) 이었는데 generator 출력으로 (3 x 256 x 256)이 나왔다.
사실 무시하고 하나씩 잘라서 256x256 세 개를 만들었는데 아니나 다를까 음성에 노이즈가 많이 껴서 제대로 분간이 가지 않았다. 그래서 결국 Generator 부분을 만져 (1 x 256 x 256)을 출력할 수 있도록 해야겠다는 생각이... 들었다.
Padding
Generator의 출력부분을 (1, 256, 256)으로 변경하였더니 사이즈 오류가 발생했다. 그러나, 가장 기본적인 부분에서 오류를 해결할 수 있었다. 딥러닝 중 CNN의 가장 기본 파트로 돌아가보자 보통 패딩을 할 때, (filter size - 1) 만큼 패딩을 한다고 한다. 내 모델의 경우 filter size가 1이어서 패딩이 0이어야 하는데 패딩이 1로 되어있어서 사이즈 오류가 발생한 것이었다. 덕분에 잘 해결했다!
그러나, 문제는 예상치 못한 곳에서 발생했다..
구글 나쁜 사람들.... 코드도 다 되고 다른것도 다 됐는데 왜 런타임 연결이 자꾸 끊어지는지... 지금 여기서 이렇게 갑자기 예상치 못한 문제를 만날 줄은 몰랐어서 굉장히 당황스럽다 이거 GPU RAM 14.7GB 써서 로컬에서 돌릴수도 없는데.. 고작 6분 돌려도 런타임 연결 끊어지는 걸 보니 참 답이 없다. 우선 다른 계정으로 구글 코랩 프로 결제해서 사용하고 있는 파트가 잘 돌아가기를 빌고 있어야겠다...
'지능시스템 졸업 프로젝트' 카테고리의 다른 글
[지능시스템 졸업프로젝트] 음성 합성 프로젝트 일지 ⑦ (0) | 2023.05.26 |
---|---|
[지능시스템 졸업 프로젝트] 음성 합성 프로젝트 일지 ⑥ (0) | 2023.05.22 |
[지능시스템 캡스톤 디자인] 음성 합성 프로젝트 일지 ④ (0) | 2023.05.22 |
[지능시스템 캡스톤 디자인] 감정 생성 프로젝트 일지 ③ (0) | 2023.05.22 |
[지능 시스템 캡스톤 디자인] 프로젝트 일지 ② (0) | 2023.05.21 |