음성 인식1분 읽기
음성 인식
음성 인식은 오디오 신호를 텍스트로 바꾸는 기반 기술입니다.
음성 인식 말한 오디오를 텍스트로 바꾸는 기술층입니다.
기술적으로 무엇인가
음성 인식은 마이크 입력을 받아 단어 또는 토큰 후보를 추정하고 텍스트로 출력합니다. 받아쓰기 경험의 기반이지만, 그것만으로 좋은 입력 경험이 완성되지는 않습니다.
실제 사용에서 왜 중요한가
모델 품질, 언어 혼합 대응, 고유명사 처리 같은 대부분의 체감 문제가 이 층과 연결됩니다. 다만 최종 만족도는 커서 삽입과 정리 규칙도 함께 좌우합니다.
자주 생기는 오해
- 정확도만 보면 된다고 생각 핫키와 입력 위치가 어색하면 정확해도 불편합니다.
- 언어 지원 수만 보면 된다고 생각 실제 다국어 혼합 입력은 별도 난도가 있습니다.
- 후처리 문제까지 모두 모델 탓 용어 치환이나 정리 단계가 해결할 수 있는 문제도 많습니다.
FAQ
자주 묻는 질문
음성 제어와 같은 뜻인가요?
아닙니다. 음성 인식은 말을 글로 바꾸는 층이고, 음성 제어는 명령 해석까지 포함합니다.
정확해도 왜 체감이 나쁠 수 있나요?
실제 사용감은 시작 속도, 삽입 위치, 후처리 규칙까지 함께 결정되기 때문입니다.
Mallo에서 어떤 역할인가요?
핵심 엔진이지만, Mallo는 그 위에 입력 워크플로를 얹어 체감을 완성합니다.