Skip to main content

스트리밍 STT

본 문서는 오디오 스트리밍 입력을 텍스트로 변환할 수 있는 스트리밍 STT API를 구현하는 방식에 대한 가이드를 제공합니다. 스트리밍 STT는 1) GRPC 와 2) WebSocket, 두 가지 방식을 지원하고 있으며, 구체적인 연동 방식은 스트리밍 STT - GRPC, 스트리밍 STT - WebSocket 에서 확인하실 수 있습니다. 스트리밍이 아닌 파일에서 텍스트 변환이 필요할 경우 일반 STT 가이드 문서를 통해 STT 기능을 사용할 수 있습니다.

지원 인코딩

스트리밍 STT API는 오디오 코덱 LINEAR16, WAV, FLAC, MULAW, ALAW, AMR, AMR_WB, OGG_OPUS, OPUS를 지원하고 있습니다.

caution
  • LINEAR16, MULAW, ALAW, AMR, AMR_WB는 raw data 형태로 전송해야 합니다.
  • OGG_OPUS는 Ogg 컨테이너에서 Opus 코덱으로 인코딩된 오디오 프레임 형태로 전송해야 합니다.
  • OPUS는 RTP 패킷 단위로 payload 부분만 전송해야 합니다.