ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • STT(Speech To Text)와 TTS(Text To Speech) 기능 정의
    공부하자 2025. 11. 10. 18:49
    728x90
    반응형


    1. 기술 한 줄 정의
     
    1) STT (Speech To Text)
    - 말한 소리를 글자로 바꿔주는 기술
    - 예시 : 내가 "안녕!" 하고 말하면, 컴퓨터가 듣고 '안녕' 이라고 글자를 써주는 것.
    - 음성 → 기술
     
    2) TTS (Text To Speech)
    - 글자를 말소리로 바꿔주는 기술
    - 예시 : '안녕하세요' 라고 적혀 있으면, 컴퓨터가 그 글자를 읽어서 말해주는 것.
    - 글자 → 음성

    기술 이름들어가는 것나오는 것예시
    STT사람 목소리글자음성 인식, 유튜브 자막 자동 생성
    TTS글자로 된 문장목소리네비가 " 다음 신호에서 우회전"하고 말하는 것

     
     
    2. 이 기능이 왜 필요했나?
    - 해외 의료 환자들이 비용/시간 절감을 위해 실시간 통/번역 상담 기능이 필요했음.
     
     
    3. 장점/단점

    장점단점
    구현 쉬움 / API 다양정확도는 환경에 따라 편차
    한국어 지원비용 발생 가능

     
     
    4. 작동 방식
    - 사용자 음성 → 전처리 → 모델 해석 → 텍스트 출력
    - 정확도에 가장 큰 영향을 주는 요인
     : 주변 소음
     : 말 속도 / 억양
     : 분야 특화 언어(전문 용어)
     
     
    5. 제품 / 서비스 적용 관점

    적용 방식예시기획 포인트
    실시간 전환화상회의 자막, 실시간 상담지연 시간(Latency) 중요
    비실시간 전환녹취 파일 업로드 후 텍스트화배치 처리 / 비용 효율 중요
    부분 하이브리드실시간은 키워드만 잡고, 뒤에 정확도 보정정확도 vs 비용 절충

     
     
    6. 모델 비교

    모델한국어 정확도속도비용강점
    Google STT보통빠름비교적 저렴간단하게 바로 적용 가능
    Whisper (Open AI)높음보통직접 운영 시 비용 절감 가능잡음 환경에 강함
    Naver CLOVA Speech높음빠름비용 정책 상이한국어 도메인에 특히 강함

    정확도가 중요한가? 실시간이 중요한가? 비용이 중요한가?
     

    728x90
    반응형

    댓글

Designed by 대두.