지능시스템 졸업 프로젝트

[지능 시스템 졸업 프로젝트] 프로젝트 일지 ①

부농쿼카 2023. 5. 21. 18:57
728x90

프로젝트가 한 달 남은 시점이지만, 한 달 동안 효율적인 프로젝트 관리를 위해 일지를 써보고자 합니다!

 

프로젝트 설명

지능시스템 캡스톤 디자인 프로젝트에서는 RelGAN이라는 생성모델과 KoBERT라는 자연어 처리 모델, TTS 기술을 사용하여, 문장에 감정을 담아 실감나게 읽어주는 TTS 서비스를 제작하고자 진행하고 있습니다. 조금 더 자세히 설명드리자면 KoBERT 모델을 사용하여 텍스트 문장에서 감정을 추출하고, TTS를 통해 해당 텍스트를 Speech로 변환합니다. 마지막으로 변환한 Speech에 RelGAN을 사용하여 KoBERT에서 추출한 감정을 입혀 실감나는 TTS 서비스를 제작하고자 합니다.

 

프로젝트 현위치

현재, KoBERT 모델의 경우 다른 팀원이 도맡아 Pre-Training을 진행하였고, 원하는 Test accuracy를 기록하여 어느정도 완성해두었습니다. TTS 기술의 경우 API형식으로 사용할 예정이기 때문에 현재 녹음중에 있습니다. 마지막으로, RelGAN의 경우 제가 도맡아 Training중입니다. Mel-Spectram을 .jpg로 받은 후 해당 데이터를 마치 사진데이터처럼 RelGAN에 학습시켰는데, 원하는 결과값이 도출되지 않아 여러 방향으로 접근하여 Training을 시도하고 있습니다.

 

RelGAN

첫 Generate된 Mel Spectrogram

위에 보이는 사진과 같은 형태로 voice data를 저장하였다. 그러나 이 경우 .jpg는 한정된 데이터만을 저장할 수 있다는 단점과 사진의 특성 상 벡터값이 0~255까지만 들어가기 때문에 데이터 손실이 너무 많이 생겼다. 그 결과 .jpg 파일을 .wav파일로 변환하였더니 noise 값만 있는 형태로 출력값이 나왔다.

 

담당 교수님과의 면담에서 데이터를 MelSpectram형태의 .jpg 파일이 아닌, numpy 형태로 저장하여 학습을 진행하라는 피드백을 들었다. 이후부터는 MelSpectram속 데이터를 numpy형태로 저장하여 학습을 진행하고자 한다.

728x90