논문 (3) 썸네일형 리스트형 wav2vec 2.0: A Framework for Self-Supervised Learning of Speech Representations 정리 1. Introduction 기존의 neural networks는 대량의 labeled training data로 훈련됨. 그러나 labeled data는 unlabeled data보다 수집이 어려움 현재의 음성인식 시스템은 납득할 만한 성능을 얻기 위해서는 수천 시간의 transcribed speech를 필요로 함 그리고 사람은 언어를 습득할 때 labeled examples로부터 학습하지 않음 Self-supervised learning unlabeled examples로부터 general representation을 학습하고, labeled data를 사용하여 fine-tuning을 진행하는 방법. Wav2vec 2.0 raw audio data로부터 self-supervised learning 기.. Neural Discrete Representation Learning (2017) 정리 Abstract Vector Quantised Variational AutoEncoder (VQ-VAE) Differences with VAEs The encoder network outputs discrete codes. Discrete latent representation을 학습하기 위해 vector quantisation (VQ)를 도입 → VAE에서 자주 발생하는 'posterior collapse' 문제를 dhksghkgkf tn dlTdma. The prior is learnt rather than static. Discrete latent representation + autoregressive prior → the model can generate high quality images, v.. wav2vec: unsupervised pre-training for speech recognition Abstract 목적: raw audio의 representation을 학습하기 위해 unsupervised pre-training 방법을 탐색 Method: 대량의 unlabeled audio data로 훈련된 wav2vec 사용 resulting representation을 사용하여 acoustic model training을 향상시키고자 함 simple multi-layer CNN을 학습시킴 noise contrastive binary classification task로 최적화 Result WSJ dataset: WER 36% 감소 nov92 test set: WER 2.43% 달성 Introduction Pre-training of neural networks 음성인식 모델들은 대량의 trans.. 이전 1 다음