Skip to main content

단어별 Timestamp

use_word_timestamp 파라미터는 전사된 텍스트와 함께 상세한 단어 수준의 timestamp 정보를 받을 수 있게 해줍니다. 이 기능은 전사된 텍스트를 원래 오디오와 정확히 일치시킬 필요가 있을 때 특히 유용합니다.

NameTypeDefaultDesc
use_word_timestampBooleanfalsetrue로 설정할 경우, API 응답에 utterances 배열 내에 words 필드가 포함됩니다. words 내 각 요소는 start_at, duration, text 필드를 포함합니다.

사용법

API 요청 시 use_word_timestamp 파라미터를 true로 설정할 수 있습니다.


curl -X "POST" \
"https://openapi.vito.ai/v1/transcribe" \
-H "accept: application/json" \
-H "Authorization: Bearer ${YOUR_JWT_TOKEN}" \
-F "file=@sample.wav" \
-F 'config={
"use_word_timestamp": true
}'

단어별 Timestamp 응답 예시

{
"id": "G6j7wIYxSCCz3gYtQbeYdQ",
"status": "completed",
"results": {
"utterances": [
{
"start_at": 1187,
"duration": 600,
"spk": 0,
"spk_type": "NORMAL",
+ "words": [
+ {
+ "start_at": 1187,
+ "duration": 600,
+ "text": "여보세요."
+ }
+ ],
"msg": "여보세요."
},
{
"start_at": 3108,
"duration": 1590,
"spk": 1,
"spk_type": "NORMAL",
+ "words": [
+ {
+ "start_at": 3108,
+ "duration": 540,
+ "text": "안녕하세요,"
+ },
+ {
+ "start_at": 3648,
+ "duration": 1050,
+ "text": "리턴제로입니다."
+ }
+ ],
"msg": "안녕하세요, 리턴제로입니다."
}
]
}
}

응답에는 이제 utterances 아래에 words 필드가 포함되어, 각 단어가 발화된 시작 시간, 지속 시간, 그리고 텍스트에 대한 세밀한 정보를 제공합니다.