이번에 지능시스템 졸업 프로젝트로 진행했던 음성 합성 프로젝트를 발전시켜 공학 경진 대회에 참가하기로 했다. 우리가 프로젝트를 완성도있게 마무리하지 못했기 때문에, 완성도를 높이기 위해 문제점으로 파악해보기로 하자.
팀원과의 조화
사실 가장 큰 문제점은 세 명의 팀원이지만 정작 프로젝트는 거의 두 명이서 진행했다는 점이다.. 이 점을 보완하기 위해 당당하게 한 명을 제외하고 둘이서 공학경진대회에 참가하기로 했다.
부족했던 공부
RelGAN이라는 큰 모델을 사용하는데, 정작 이 모델이 어떻게 돌아가는지 제대로 뜯어볼 생각을 하지 못했다. 사실 기초 지식이 부족하여 뜯어보고 싶었지만 실패했었다.. 이번에 인프런에서 딥러닝 강의를 결제해 수강하며, pytorch에 대해서 공부하면서 프로젝트를 진행하려고 한다.
pytorch 뿐만 아니라, 논문을 많이 읽어 RelGAN 모델에 대해 누구보다 잘 알 수 있도록 깊게 파보고자 한다.
수동적인 프로젝트 진행
사실, 졸업프로젝트 자체를 담당 교수님과 함께 진행하다보니, 교수님의 조언을 그대로 따라가고 왜 그걸 하라고 말씀하셨는지는 생각하지 않았다. 살짝 변명하자면, 졸업 프로젝트를 두 개 진행하다보니 시간이 부족했다. 하나에 투자해 깊게 진행할 수 없고, 두 개를 모두 완벽하게 진행하려고 하다보니 결국 깊은 공부가 이루어지지 못했다.
그래서 보완점을 다음과 같이 생각하였다.
왜 Melspectrogram을 사용하는가 부터 공부하기
사실, 음성이니까 당연히 Mel spectrogram을 사용해야지! 라고만 생각하고 정작 왜 Mel spectrogram이 음성으로 사용하는 것보다 좋은지 제대로 공부하지 않았기 때문에, 프로젝트 막바지에 음성이 제대로 출력되지 않아도 이유를 알지 못하고 하드코딩 식으로 맞추기 급급했다. 시간적 여유가 조금 있으니, 이번엔 Mel spectorgram의 파라미터를 하나 하나 분석해보고, 왜 안됐는지 정확하게 확인하고 진행하고자 한다. 첫 프로젝트 일지는 아마 이 Mel Spectrogram이 되지 않을까 싶다.
RelGAN을 그대로 사용할 것인지 고민해보기
사실, 프로젝트 막바지에 가서 왜 우리가 RelGAN을 사용하는가에 부딛혔다. StarGAN을 voiceMophing에 사용하는 것을 보면 분명 비슷한 모델인 RelGAN을 사용하지 못할 것 같진 않다. 그러나, 이 모델이 과연 우리가 진행하려고 하는 음성에 감정 넣기 프로젝트에 알맞은 모델인지에 대해 좀 알아야 할 것 같다. 단순히 다른 프로젝트에서 이 모델을 사용했기 때문에 우리도 이 모델을 쓰는 것이 아니라, 우리의 필요에 의해 사용해야 한다. 좀 더 능동적인 프로젝트 구성이 필요하다.
그래서, 우선 Mel- Spectrogram에 대한 공부를 조금 진행한 후, 여러 Voice Mophing 기술에 대해 학습하고 RelGAN을 사용할 것인지를 이번 주 내에 정해야 한다.
이 프로젝트 회고는 새로운 프로젝트를 시작하려는 많은 사람들에게 도움이 되었으면 하는 생각과 내 프로젝트가 잘 끝났으면 하는 두 가지 마음에 작성하였다. 단순히 누군가의 프로젝트를 따라서 하는 것이 아니라, 다른 사람의 프로젝트를 참고정도 하고 내 프로젝트를 정확하게 진행해야 한다는 것을 깨달았다. 공부는 수동적으로 할 수 있지만 프로젝트는 능동적이어야 한다. 실패는 당연히 필요하고, 그 실패에서 새로운 것을 얻어가야 한다. 부디 공학경진대회 카테고리의 마지막 글이 수상했다는 글이길 빌어보며, 프로젝트를 시작해보고자 한다.
'공학경진대회 준비' 카테고리의 다른 글
[공경진] An Improved StarGAN for Emotional Voice Conversion:Enhancing Voice Quality and Data Augmentation 논문 리뷰 ② (0) | 2023.07.27 |
---|---|
[공경진]Voice Conversion 기술 정리 (0) | 2023.07.17 |
[공경진 준비] Anaconda GPU 사용하기 (0) | 2023.07.13 |
[공경진] 음성에 감정 넣기 프로젝트 일지① : Anaconda 설치 (0) | 2023.07.04 |