Skip to main content

화자분리

화자분리는 일반 STT API에서 2명의 화자분리를 인식할 수 있는 기능입니다. STT API와 함께 화자분리 기능을 이용할 경우, 누가, 언제, 어떤 이야기를 했는지에 대한 정보를 확인할 수 있습니다. 이 문서는 화자분리을 이용하기 위한 설정 정보를 가이드를 제공합니다.

화자분리는 1) 일반 화자분리와 2) 고급 화자분리, 두 가지 형태로 제공됩니다.

고급 화자분리의 경우, 이용자(user_id)와 이용자의 상대방(partner_id)의 음성 정보를 분석하여 보다 정교한 화자분리 결과를 제공합니다.

일반 화자분리 기능을 사용하기 위해서는 API 요청 시 diarization 옵션 정보를 설정해야 합니다. 또한, 고급 화자분리 기능을 사용하기 위해서는 use_verification을 true로 설정해야 하며, 이용자(user_id)와 이용자의 상대방(partner_id) 정보를 추가로 입력해야 합니다.

샘플 코드

아래의 코드 샘플에서 화자분리를 사용하는 방법을 확인하실 수 있습니다.

1) 일반 화자분리


curl -X 'POST' \
'https://openapi.vito.ai/v1/transcribe' \
-H 'accept: application/json' \
-H 'Authorization: Bearer YOUR_JWT_TOKEN' \
-H 'Content-Type: multipart/form-data' \
-F 'file=@sample.wav' \
-F 'config={
"diarization": {
"use_ars": false,
"use_verification": false
}
}'

2) 고급 화자분리


curl -X 'POST' \
'https://openapi.vito.ai/v1/transcribe' \
-H 'accept: application/json' \
-H 'Authorization: Bearer YOUR_JWT_TOKEN' \
-H 'Content-Type: multipart/form-data' \
-F 'file=@sample.wav' \
-F 'config={
"diarization": {
"use_ars": false,
"use_verification": true,
"user_id": "user-id-xxxx",
"partner_id": "partner-id-xxxxxxx"
}
}'