Web STT: speaker diarization via pyannote; whisper_stt snapshot validation

- Add app/diarize.py: merge faster-whisper segments with pyannote (A/B/C) - Wire /api/jobs and /api/transcribe; job API returns speaker_diarization, diarize_skip_reason - UI: meta line shows diarization applied/skipped; hint for models path - requirements.txt: pyannote.audio; README APP_DIARIZE / APP_PYANNOTE_MODEL_DIR - whisper_stt.py: validate config.yaml before loading pipeline - requirements-whisper-stt.txt: minor doc updates if any Made-with: Cursor
2026-03-23 13:09:31 +09:00
parent c90230053a
commit 2e503d1a56
7 changed files with 285 additions and 8 deletions
--- a/README.md
+++ b/README.md
@@ -86,13 +86,32 @@ pip install -r requirements-whisper-stt.txt

 ```bash
 conda activate stt   # 또는 사용 중인 env (예: ncue)
-pip uninstall -y torch torchvision torchaudio
-pip uninstall -y torch torchvision torchaudio   # Skipping만 나올 때까지 반복
+pip uninstall -y torch torchvision torchaudio functorch
+pip uninstall -y torch torchvision torchaudio functorch   # Skipping만 나올 때까지 반복
 pip cache purge
 pip install torch torchaudio --index-url https://download.pytorch.org/whl/cpu
 pip install -r requirements-whisper-stt.txt
 ```

+**같은 오류(`ATen.h` 없음 등)가 `torch` 재설치 시에도 반복되면**  
+`pip uninstall`만으로는 깨진 `site-packages/torch` 폴더가 남는 경우가 있습니다. 아래로 **잔여 디렉터리를 직접 삭제**한 뒤 다시 설치하세요. (`python3.11`은 `python -c "import sys; print(sys.version_info[:2])"`로 맞춤.)
+
+```bash
+conda activate ncue   # 문제 나는 env
+pip uninstall -y torch torchvision torchaudio functorch 2>/dev/null || true
+rm -rf "$CONDA_PREFIX/lib/python3.11/site-packages/torch" \
+       "$CONDA_PREFIX/lib/python3.11/site-packages/torch-"*.dist-info \
+       "$CONDA_PREFIX/lib/python3.11/site-packages/torchaudio" \
+       "$CONDA_PREFIX/lib/python3.11/site-packages/torchaudio-"*.dist-info \
+       "$CONDA_PREFIX/lib/python3.11/site-packages/torchgen" \
+       "$CONDA_PREFIX/lib/python3.11/site-packages/functorch"
+pip cache purge
+pip install torch torchaudio --index-url https://download.pytorch.org/whl/cpu
+pip install -r requirements-whisper-stt.txt
+```
+
+그래도 실패하면 **새 conda 환경**(`conda create -n stt-whisper python=3.11 -y`)을 만들고, 위 README의 **conda로 PyTorch 먼저** 절차만 그 env에서 진행하는 것이 가장 확실합니다.
+
 애초에 꼬이지 않게 하려면 **PyTorch를 conda로 먼저** 깐 뒤 위 requirements만 pip로 설치하는 것을 권장합니다.

 ```bash
@@ -102,6 +121,8 @@ pip install -r requirements-whisper-stt.txt
 ```

 - **Hugging Face `hf` CLI**: `pip install huggingface_hub` 후 `hf auth login`, `hf download …` (화자 구분용 pyannote 모델 등).
+  - $ hf auth login
+  - $ hf download pyannote/speaker-diarization-3.1 --local-dir ./models/pyannote-diarization-3.1
 - **화자 구분(기본 켜짐)**: `./models/pyannote-diarization-3.1` 에 pyannote 스냅샷이 있어야 합니다. 없으면 스크립트가 `hf download` 안내 후 종료합니다. 모델 받기: [pyannote/speaker-diarization-3.1](https://huggingface.co/pyannote/speaker-diarization-3.1) 약관 동의 후 `hf auth login`, `hf download … --local-dir ./models/pyannote-diarization-3.1`. 다른 경로는 `--diarize-model-dir` 또는 `WHISPER_DIARIZE_MODEL_DIR` 로 지정.
 - **화자 구분 끄기**: `python whisper_stt.py 입력.m4a 출력.txt --no-diarize` (Whisper 통문만 저장)

@@ -131,12 +152,15 @@ uvicorn app.main:app --reload --host 127.0.0.1 --port 8025

 브라우저에서 `http://127.0.0.1:8025` 접속.

+업로드 전사가 끝나면 **`app/diarize.py`** 가 `whisper_stt.py`와 같은 방식으로 pyannote 화자 구분을 시도합니다. 저장소 루트의 **`models/pyannote-diarization-3.1`** (`config.yaml` 포함)이 있어야 하며, `requirements.txt`에 `pyannote.audio`가 포함되어 있습니다. 스냅샷이 없거나 오류면 전사만 반환하고, 응답에 `speaker_diarization: false` 와 `diarize_skip_reason` 이 붙을 수 있습니다.
+
 ---

 ## 옵션·환경 변수

 - **모델**: 기본 `small` (정확도/속도 균형). `APP_WHISPER_MODEL=base|small|medium|large-v3` 등으로 변경 가능.
 - **디바이스**: 기본 CPU. Apple Silicon에서 Metal은 `faster-whisper` 단독으로는 제한이 있어 CPU 기본값을 권장.
+- **웹 화자 구분**: `APP_DIARIZE=1`(기본) — `0`/`false`/`off` 이면 pyannote 단계 생략. `APP_PYANNOTE_MODEL_DIR` 로 스냅샷 경로 지정(없으면 프로젝트 `models/pyannote-diarization-3.1`).
 - **기타**: `APP_WHISPER_DEVICE`, `APP_WHISPER_COMPUTE_TYPE`, 업로드 크기 등은 `app/main.py` 및 `.env` 예시를 참고.

 ---