지능시스템 졸업 프로젝트

[지능시스템 캡스톤 디자인] 음성 합성 프로젝트 일지 ④

부농쿼카 2023. 5. 22. 00:32
728x90

프로젝트 개요

지능시스템 캡스톤 디자인 프로젝트에서는 RelGAN이라는 생성모델과 KoBERT라는 자연어 처리 모델, TTS 기술을 사용하여, 문장에 감정을 담아 실감나게 읽어주는 TTS 서비스를 제작하고자 진행하고 있습니다. 조금 더 자세히 설명드리자면 KoBERT 모델을 사용하여 텍스트 문장에서 감정을 추출하고, TTS를 통해 해당 텍스트를 Speech로 변환합니다. 마지막으로 변환한 Speech에 RelGAN을 사용하여 KoBERT에서 추출한 감정을 입혀 실감나는 TTS 서비스를 제작하고자 합니다. 이 중 저는 RelGAN을 통해 음성에 감정을 입히는 부분을 도맡아 하고 있습니다.

 

프로젝트 현위치

2차원 데이터가 도저히 안되서 reshape을 통해 빈 차원을 하나 생성해 (1,256,256) 데이터로 다시 만들었다. 간단하게 10개씩만 만들어서 테스트형식으로 로컬컴퓨터에서 train을 진행하였을때, 데이터 위치(cpu or cuda)가 달라서 생긴 여러 오류를 제외하고는 무난하게 성공하였다.

 

발생한 문제

이정도면 이제 양심껏 잘 돌아갈 때도 되었다 싶었는데 또다시 문제가 생겼다...

모델을 만드는 nn.py 부분에서 뭔가 잘못되었는지 입력을 (1, 256, 256)을 넣었는데 출력이 (3, 256, 256)이 나왔다.. 아무래도 GAN train 중 파라미터 부분에서 뭔가 잘못된 값이 들어간 듯 하다. 이 부분은 nn.py 코드를 다시 뜯어보고 공부하면서 수정해야할 듯 싶다. 우선은 모델 학습하며 1000스텝마다 test 결과를 출력하는 부분이 있는데, 그 부분에서 출력되는 npy파일은 (3, 256, 256)을 (1, 256, 256) 세 개로 잘라서 한 번 mp4로 변환을 해 볼 예정이다.

 

게다가 총체적 난국으로 4월 말에 결제된 구글 코랩 플러스의 컴퓨팅 리소스를 거의 다 써버려서 전체 학습이 끝난 weight파일조차 받지 못할 수 있다는 위기감이 생겼다. 우선 내일까지 돌려보고, 안되면 다른 계정으로 코랩 프로만 결제해서 사용해야할 것 같다.. 아무리 코랩이어도 모델 크기를 적당히 해서 학습이 완료될 수 있도록 해야겠다는 생각이 들었다.. 코랩 프로 플러스 6만원 넘는데 구글 짠돌이들...

 

우선 오늘 아침부터 실행시켰던 학습결과를 내일 확인해본 후, nn.py 코드를 다시 수정할지 혹은 그대로 두고 학습을 더 시키거나 데이터 추출 파라미터를 바꿀 것인지에 대해 고민해보아야 할 듯 싶다. 오늘은 학습이 너무 오래걸려서 힘든 하루..

728x90