Skip to main content

화자 분리

화자 분리는 일반 STT API에서 2명 이상의 화자 분리를 인식할 수 있는 기능입니다. STT API와 함께 화자 분리 기능을 이용할 경우, 누가, 언제, 어떤 이야기를 했는지에 대한 정보를 확인할 수 있습니다. 이 문서는 화자분리를 이용하기 위한 설정 정보를 가이드를 제공합니다.

화자 분리 기능을 사용하기 위해서는 API 요청 시 use_diarization 파라미터를 true 로 설정해야 합니다.
(파라미터 기본값은 false 입니다.)

use_diarization 파라미터를 true로 설정하지 않는 경우 diarization 파라미터를 설정할 수 없습니다.

발화에 참여한 화자수를 알고 있는 경우에 spk_count 파라미터를 설정할 수 있습니다. (ex. 전화 통화의 경우 2로 설정)

spk_count 를 설정하지 않는 경우 화자수를 예측하여 화자분리를 수행합니다.

caution

다중 채널 지원을 사용할 경우 화자 분리 기능은 동작하지 않습니다. 채널 개수에 따라 spk 필드에 각 채널의 ID 값을 순차적으로 지정하여 내려줍니다.

사용법

아래의 코드 샘플에서 화자분리를 사용하는 방법을 확인하실 수 있습니다.


curl -X "POST" \
"https://openapi.vito.ai/v1/transcribe" \
-H "accept: application/json" \
-H "Authorization: Bearer ${YOUR_JWT_TOKEN}" \
-H "Content-Type: multipart/form-data" \
-F "file=@sample.wav" \
-F 'config={
"use_diarization": true,
"diarization": {
"spk_count": 2
}
}'