프로젝트 소개
지능시스템 캡스톤 디자인 프로젝트에서는 RelGAN이라는 생성모델과 KoBERT라는 자연어 처리 모델, TTS 기술을 사용하여, 문장에 감정을 담아 실감나게 읽어주는 TTS 서비스를 제작하고자 진행하고 있습니다. 조금 더 자세히 설명드리자면 KoBERT 모델을 사용하여 텍스트 문장에서 감정을 추출하고, TTS를 통해 해당 텍스트를 Speech로 변환합니다. 마지막으로 변환한 Speech에 RelGAN을 사용하여 KoBERT에서 추출한 감정을 입혀 실감나는 TTS 서비스를 제작하고자 합니다.
현재 위치
저번주에 이어 아직 numpy배열을 모델에 학습시킬 방법을 찾고 있습니다. 우선 .npy 파일로 numpy를 저장하는 형식으로 데이터는 준비하였습니다.
이제 모델을 numpy배열 학습에 맞게 수정할 예정입니다. 기존 RelGAN모델의 경우 영상 생성 모델이기 때문에 ImageFolder 혹은 Data transform등 이미지 처리에 관련된 함수들이 매우 많아, 이 부분을 모두 배열 처리 방식으로 수정하여 학습을 진행할 예정입니다.
오늘의 이슈
IndexError: Dimension out of range (expected to be in range of [-3, 2], but got 3)
사실 이 오류는 멋모르고 image size를 [4,256,256]으로 맞춰서 모델과 사이즈가 안맞았을 때 많이 나왔던 오류였다.
바보같이 .png로 하면 alpha channel까지해서 4채널이 나오는 줄 모르고 계속 .png로 저장해서 4채널로 오류가 생기는 거였다... 암튼 지금은 이미지 모델을 아예 음성 생성으로 변경하는 것이기 때문에 아마 많은 모델 수정이 필요하지 않을까 생각된다. 현재 문제는 총 두 가지이다.
① 일단 한 번 만들어보고 생각하자 라는 생각으로 만든 .npy 데이터가 자기들끼리 사이즈가 맞지 않는다.
mel_spectram 데이터를 만들 때, n_mel = 40으로 주었더니 다른 건 다 맞는데 저 남은 데이터 사이즈가 안맞는다. mel Spectram data를 좀 더 깊게 공부하면서 저게 왜 저렇게 나오는지 확인해봐야할 듯 싶다..
② 아마 numpy의 사이즈를 맞춰도 이 Dimension error는 계속 생성될 것이다. 애초에 모델 작동 시 받는 사이즈가 3x256x256이기 때문이다. 교수님 조언대로 모델을 뜯어보면서 내가 가진 데이터 사이즈에 맞게 수정해야 한다!
다음 일지에서 1번부터 차례대로 해결하여 교수님 미팅 전까지 결과물을 들고 갈 수 있기를...
'지능시스템 졸업 프로젝트' 카테고리의 다른 글
[지능시스템 졸업 프로젝트] 음성 합성 프로젝트 일지 ⑥ (0) | 2023.05.22 |
---|---|
[지능시스템 졸업 프로젝트] 음성 합성 프로젝트 개요 ⑤ (0) | 2023.05.22 |
[지능시스템 캡스톤 디자인] 음성 합성 프로젝트 일지 ④ (0) | 2023.05.22 |
[지능시스템 캡스톤 디자인] 감정 생성 프로젝트 일지 ③ (0) | 2023.05.22 |
[지능 시스템 졸업 프로젝트] 프로젝트 일지 ① (0) | 2023.05.21 |