STT(Speech To Text)와 TTS(Text To Speech) 기능 정의

공부하자 2025. 11. 10. 18:49

728x90

1. 기술 한 줄 정의

1) STT (Speech To Text)
- 말한 소리를 글자로 바꿔주는 기술
- 예시 : 내가 "안녕!" 하고 말하면, 컴퓨터가 듣고 '안녕' 이라고 글자를 써주는 것.
- 음성 → 기술

2) TTS (Text To Speech)
- 글자를 말소리로 바꿔주는 기술
- 예시 : '안녕하세요' 라고 적혀 있으면, 컴퓨터가 그 글자를 읽어서 말해주는 것.
- 글자 → 음성

기술 이름	들어가는 것	나오는 것	예시
STT	사람 목소리	글자	음성 인식, 유튜브 자막 자동 생성
TTS	글자로 된 문장	목소리	네비가 " 다음 신호에서 우회전"하고 말하는 것

2. 이 기능이 왜 필요했나?
- 해외 의료 환자들이 비용/시간 절감을 위해 실시간 통/번역 상담 기능이 필요했음.

3. 장점/단점

장점	단점
구현 쉬움 / API 다양	정확도는 환경에 따라 편차
한국어 지원	비용 발생 가능

4. 작동 방식
- 사용자 음성 → 전처리 → 모델 해석 → 텍스트 출력
- 정확도에 가장 큰 영향을 주는 요인
: 주변 소음
: 말 속도 / 억양
: 분야 특화 언어(전문 용어)

5. 제품 / 서비스 적용 관점

적용 방식	예시	기획 포인트
실시간 전환	화상회의 자막, 실시간 상담	지연 시간(Latency) 중요
비실시간 전환	녹취 파일 업로드 후 텍스트화	배치 처리 / 비용 효율 중요
부분 하이브리드	실시간은 키워드만 잡고, 뒤에 정확도 보정	정확도 vs 비용 절충

6. 모델 비교

모델	한국어 정확도	속도	비용	강점
Google STT	보통	빠름	비교적 저렴	간단하게 바로 적용 가능
Whisper (Open AI)	높음	보통	직접 운영 시 비용 절감 가능	잡음 환경에 강함
Naver CLOVA Speech	높음	빠름	비용 정책 상이	한국어 도메인에 특히 강함

정확도가 중요한가? 실시간이 중요한가? 비용이 중요한가?

728x90

'공부하자' 카테고리의 다른 글

2025 트렌드 키워드 톺아보기 (9)	2024.10.18
Runway Gen-3 런웨이 젠3 AI툴로 이미지를 움직이는 동영상 만들기 (3)	2024.08.07
챗GPT와 생성형 AI 기술에 대한 이해 (Feat. ANI, AGI, ASI) (0)	2023.08.18
앱 접근권한 개인정보보호 가이드 (0)	2023.06.19
MAU, DAU, MCU, ACU란 무엇일까? (0)	2023.06.16

ABOUT ME

대두 로그 대두 로그

'공부하자' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'공부하자' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바