본문 바로가기

코딩/음소인식기

(2)

fairseq로 wav2vec2 디코딩하기 1. 파일 다운로드 및 preprocessing json 파일에서 오디오 파일 다운로드 및 다운샘플링 json 파일 양식에 맞게 csv 파일 생성 (total.csv) fairseq data 생성 용 csv 파일 생성 (ch.csv) import os import soundfile as sf import re import json import wget from scipy.io import wavfile import scipy.signal as sps audio_save_dir = '/data/jihyeon1202/nia/niach6/audio_4/' with open('/data/jihyeon1202/nia/zh.json', 'r') as f: entire_dic = json.load(f) def dow..

fairseq로 wav2vec2 finetuning하기 1. 필요한 파일 준비 (train, test, valid) .tsv (audio 파일들의 절대경로) + '\t' + (frame 수) 도커에서 실행하려고 할때는 맨 윗줄에 공통경로를 적어줘야 함 !! .ltr (or .phn) 인식하고자 하는 문장을 letter (ltr) 단위 혹은 phoneme (phn) 단위로 전사한 텍스트로 이루어진 파일 중국어의 성모, 운모+성조를 하나의 음소로 보고 음소인식 수행 .wrd 인식하고자 하는 문장을 word (wrd) 단위로 전사한 텍스트로 이루어진 파일 중국어의 경우 띄어쓰기가 없기 때문에 character (한자) 단위로 나누어도 됨 음소인식 task의 경우에는 wrd 파일과 phn 파일이 같아도 상관 없음 dict.ltr.txt (or dict.phn.txt..

티스토리툴바