-
STT(Speech To Text)와 TTS(Text To Speech) 기능 정의공부하자 2025. 11. 10. 18:49728x90반응형

1. 기술 한 줄 정의
1) STT (Speech To Text)
- 말한 소리를 글자로 바꿔주는 기술
- 예시 : 내가 "안녕!" 하고 말하면, 컴퓨터가 듣고 '안녕' 이라고 글자를 써주는 것.
- 음성 → 기술
2) TTS (Text To Speech)
- 글자를 말소리로 바꿔주는 기술
- 예시 : '안녕하세요' 라고 적혀 있으면, 컴퓨터가 그 글자를 읽어서 말해주는 것.
- 글자 → 음성기술 이름 들어가는 것 나오는 것 예시 STT 사람 목소리 글자 음성 인식, 유튜브 자막 자동 생성 TTS 글자로 된 문장 목소리 네비가 " 다음 신호에서 우회전"하고 말하는 것
2. 이 기능이 왜 필요했나?
- 해외 의료 환자들이 비용/시간 절감을 위해 실시간 통/번역 상담 기능이 필요했음.
3. 장점/단점장점 단점 구현 쉬움 / API 다양 정확도는 환경에 따라 편차 한국어 지원 비용 발생 가능
4. 작동 방식
- 사용자 음성 → 전처리 → 모델 해석 → 텍스트 출력
- 정확도에 가장 큰 영향을 주는 요인
: 주변 소음
: 말 속도 / 억양
: 분야 특화 언어(전문 용어)
5. 제품 / 서비스 적용 관점적용 방식 예시 기획 포인트 실시간 전환 화상회의 자막, 실시간 상담 지연 시간(Latency) 중요 비실시간 전환 녹취 파일 업로드 후 텍스트화 배치 처리 / 비용 효율 중요 부분 하이브리드 실시간은 키워드만 잡고, 뒤에 정확도 보정 정확도 vs 비용 절충
6. 모델 비교모델 한국어 정확도 속도 비용 강점 Google STT 보통 빠름 비교적 저렴 간단하게 바로 적용 가능 Whisper (Open AI) 높음 보통 직접 운영 시 비용 절감 가능 잡음 환경에 강함 Naver CLOVA Speech 높음 빠름 비용 정책 상이 한국어 도메인에 특히 강함 정확도가 중요한가? 실시간이 중요한가? 비용이 중요한가?
728x90반응형'공부하자' 카테고리의 다른 글
2025 트렌드 키워드 톺아보기 (9) 2024.10.18 Runway Gen-3 런웨이 젠3 AI툴로 이미지를 움직이는 동영상 만들기 (3) 2024.08.07 챗GPT와 생성형 AI 기술에 대한 이해 (Feat. ANI, AGI, ASI) (0) 2023.08.18 앱 접근권한 개인정보보호 가이드 (0) 2023.06.19 MAU, DAU, MCU, ACU란 무엇일까? (0) 2023.06.16