Spaces:

Ronaldodev
/

fon-essai

Sleeping

Ronaldodev commited on 9 days ago

Commit

bb2e6f4

verified ·

1 Parent(s): c6ed426

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -37,31 +37,34 @@ def transcribe(audio):
     return processor.decode(ids, skip_special_tokens=True)
-def transcribe_long(audio, chunk_seconds=30):
     if audio is None:
         return "Aucun audio fourni."
-    # 1. Load audio
     speech, sr = librosa.load(audio, sr=16000)
-    # 2. Découpage en chunks de 30s
     chunk_size = chunk_seconds * sr
-    chunks = [speech[i:i + chunk_size] for i in range(0, len(speech), chunk_size)]
     full_text = ""
-    for idx, chunk in enumerate(chunks):
         inputs = processor(chunk, sampling_rate=16000, return_tensors="pt").input_features.to(device)
         with torch.no_grad():
-            ids = model.generate(inputs, max_length=300)[0]
         text = processor.decode(ids, skip_special_tokens=True)
-        full_text += f"{text} "
-        print(f"[Chunk {idx+1}/{len(chunks)}] ✔")  # suivi en live dans console
     return full_text.strip()
 def transcribe_music(audio, segment_length=15):  # 15 sec idéal
     y, sr = librosa.load(audio, sr=16000)

     return processor.decode(ids, skip_special_tokens=True)
+def transcribe_long(audio, chunk_seconds=30, overlap_seconds=5):
     if audio is None:
         return "Aucun audio fourni."
     speech, sr = librosa.load(audio, sr=16000)
     chunk_size = chunk_seconds * sr
+    overlap = overlap_seconds * sr
+    start = 0
     full_text = ""
+    while start < len(speech):
+        end = min(start + chunk_size, len(speech))
+        chunk = speech[start:end]
         inputs = processor(chunk, sampling_rate=16000, return_tensors="pt").input_features.to(device)
         with torch.no_grad():
+            ids = model.generate(inputs, max_length=448)[0]
         text = processor.decode(ids, skip_special_tokens=True)
+        full_text += text + " "
+        start += chunk_size - overlap
+        print(f"Chunk {start//(chunk_size - overlap)} / {len(speech)//(chunk_size - overlap)}")
     return full_text.strip()
 def transcribe_music(audio, segment_length=15):  # 15 sec idéal
     y, sr = librosa.load(audio, sr=16000)