[지능시스템 캡스톤 디자인] 음성 합성 프로젝트 일지 ④

지능시스템 졸업 프로젝트

[지능시스템 캡스톤 디자인] 음성 합성 프로젝트 일지 ④

부농쿼카 2023. 5. 22. 00:32

728x90

프로젝트 개요

지능시스템 캡스톤 디자인 프로젝트에서는 RelGAN이라는 생성모델과 KoBERT라는 자연어 처리 모델, TTS 기술을 사용하여, 문장에 감정을 담아 실감나게 읽어주는 TTS 서비스를 제작하고자 진행하고 있습니다. 조금 더 자세히 설명드리자면 KoBERT 모델을 사용하여 텍스트 문장에서 감정을 추출하고, TTS를 통해 해당 텍스트를 Speech로 변환합니다. 마지막으로 변환한 Speech에 RelGAN을 사용하여 KoBERT에서 추출한 감정을 입혀 실감나는 TTS 서비스를 제작하고자 합니다. 이 중 저는 RelGAN을 통해 음성에 감정을 입히는 부분을 도맡아 하고 있습니다.

프로젝트 현위치

2차원 데이터가 도저히 안되서 reshape을 통해 빈 차원을 하나 생성해 (1,256,256) 데이터로 다시 만들었다. 간단하게 10개씩만 만들어서 테스트형식으로 로컬컴퓨터에서 train을 진행하였을때, 데이터 위치(cpu or cuda)가 달라서 생긴 여러 오류를 제외하고는 무난하게 성공하였다.

발생한 문제

이정도면 이제 양심껏 잘 돌아갈 때도 되었다 싶었는데 또다시 문제가 생겼다...

모델을 만드는 nn.py 부분에서 뭔가 잘못되었는지 입력을 (1, 256, 256)을 넣었는데 출력이 (3, 256, 256)이 나왔다.. 아무래도 GAN train 중 파라미터 부분에서 뭔가 잘못된 값이 들어간 듯 하다. 이 부분은 nn.py 코드를 다시 뜯어보고 공부하면서 수정해야할 듯 싶다. 우선은 모델 학습하며 1000스텝마다 test 결과를 출력하는 부분이 있는데, 그 부분에서 출력되는 npy파일은 (3, 256, 256)을 (1, 256, 256) 세 개로 잘라서 한 번 mp4로 변환을 해 볼 예정이다.

게다가 총체적 난국으로 4월 말에 결제된 구글 코랩 플러스의 컴퓨팅 리소스를 거의 다 써버려서 전체 학습이 끝난 weight파일조차 받지 못할 수 있다는 위기감이 생겼다. 우선 내일까지 돌려보고, 안되면 다른 계정으로 코랩 프로만 결제해서 사용해야할 것 같다.. 아무리 코랩이어도 모델 크기를 적당히 해서 학습이 완료될 수 있도록 해야겠다는 생각이 들었다.. ~~코랩 프로 플러스 6만원 넘는데 구글 짠돌이들...~~

우선 오늘 아침부터 실행시켰던 학습결과를 내일 확인해본 후, nn.py 코드를 다시 수정할지 혹은 그대로 두고 학습을 더 시키거나 데이터 추출 파라미터를 바꿀 것인지에 대해 고민해보아야 할 듯 싶다. 오늘은 학습이 너무 오래걸려서 힘든 하루..

728x90

'지능시스템 졸업 프로젝트' 카테고리의 다른 글

[지능시스템 졸업 프로젝트] 음성 합성 프로젝트 일지 ⑥ (0)	2023.05.22
[지능시스템 졸업 프로젝트] 음성 합성 프로젝트 개요 ⑤ (0)	2023.05.22
[지능시스템 캡스톤 디자인] 감정 생성 프로젝트 일지 ③ (0)	2023.05.22
[지능 시스템 캡스톤 디자인] 프로젝트 일지 ② (0)	2023.05.21
[지능 시스템 졸업 프로젝트] 프로젝트 일지 ① (0)	2023.05.21

현재글[지능시스템 캡스톤 디자인] 음성 합성 프로젝트 일지 ④

쿼카의 개발자 성장기

의료분야 딥러닝 개발자입니다. 대학교 시절 전공 공부와 지금 하고 있는 여러 공부들을 정리하여 기록하고 있습니다.

dbms, 알고리즘, 코테준비, 백준, 딥러닝기초, 졸업프로젝트, 딥러닝, SQL, brute force 알고리즘, 인공지능 프로젝트, 파이썬, 졸업 프로젝트, 코테, 파이썬 코테, 데이터베이스, 캡스톤디자인, 인공지능, 코딩테스트, 폭력감지 CCTV, 파이썬 알고리즘,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

쿼카의 개발자 성장기