unity
/

sentis-whisper-tiny

Automatic Speech Recognition

unity-sentis

ONNX

Model card Files Files and versions Community

Paul Bird commited on Jan 11, 2024

Commit

fd92562

verified ·

1 Parent(s): 4d10ff7

Upload RunWhisper.cs

Browse files

Files changed (1) hide show

RunWhisper.cs +18 -12

RunWhisper.cs CHANGED Viewed

@@ -36,6 +36,7 @@ public class RunWhisper : MonoBehaviour
     // Link your audioclip here. Format must be 16Hz mono non-compressed.
     public AudioClip audioClip;
     const int maxTokens = 100;
     //Special tokens
@@ -56,19 +57,22 @@ public class RunWhisper : MonoBehaviour
     int[] outputTokens = new int[maxTokens];
     // Used for special character decoding
-    int[] shiftDownDict = new int[256];
     TensorFloat encodedAudio;
     bool transcribe = false;
     string outputString = "";
     void Start()
     {
         allocator = new TensorCachingAllocator();
         ops = WorkerFactory.CreateOps(backend, allocator);
-        SetupCharacterShifts();
         GetTokens();
@@ -117,9 +121,7 @@ public class RunWhisper : MonoBehaviour
     void EncodeAudio()
     {
-        var input = new TensorFloat(new TensorShape(1, numSamples), data);
-        int maxSamples = 30 * 16000;
         if (numSamples > maxSamples)
         {
             Debug.Log("The AudioClip is too long.");
@@ -127,7 +129,7 @@ public class RunWhisper : MonoBehaviour
         }
         // Pad out to 30 seconds at 16khz if necessary
-        var input30seconds = ops.Pad(input, new int[] { 0, 0, 0, 30 * 16000 - numSamples });
         spectroEngine.Execute(input30seconds);
         var spectroOutput = spectroEngine.PeekOutput() as TensorFloat;
@@ -142,7 +144,7 @@ public class RunWhisper : MonoBehaviour
     {
         if (transcribe && currentToken < outputTokens.Length - 1)
         {
-            var tokensSoFar = new TensorInt(new TensorShape(1, outputTokens.Length), outputTokens);
             var inputs = new Dictionary<string, Tensor>
             {
@@ -153,7 +155,7 @@ public class RunWhisper : MonoBehaviour
             decoderEngine.Execute(inputs);
             var tokensOut = decoderEngine.PeekOutput() as TensorFloat;
-            var tokensPredictions = ops.ArgMax(tokensOut, 2, false);
             tokensPredictions.MakeReadable();
             int ID = tokensPredictions[currentToken];
@@ -165,7 +167,10 @@ public class RunWhisper : MonoBehaviour
             {
                 transcribe = false;
             }
-            else if (ID >= tokens.Length) outputString += $"(time={(ID - START_TIME) * 0.02f})";
             else outputString += GetUnicodeText(tokens[ID]);
             Debug.Log(outputString);
@@ -185,16 +190,16 @@ public class RunWhisper : MonoBehaviour
         foreach (char letter in text)
         {
             outText += ((int)letter <= 256) ? letter :
-                (char)shiftDownDict[(int)(letter - 256)];
         }
         return outText;
     }
-    void SetupCharacterShifts()
     {
         for (int i = 0, n = 0; i < 256; i++)
         {
-            if (IsWhiteSpace((char)i)) shiftDownDict[n++] = i;
         }
     }
@@ -209,5 +214,6 @@ public class RunWhisper : MonoBehaviour
         encoderEngine?.Dispose();
         spectroEngine?.Dispose();
         ops?.Dispose();
     }
 }

     // Link your audioclip here. Format must be 16Hz mono non-compressed.
     public AudioClip audioClip;
+    // This is how many tokens you want. It can be adjusted.
     const int maxTokens = 100;
     //Special tokens
     int[] outputTokens = new int[maxTokens];
     // Used for special character decoding
+    int[] whiteSpaceCharacters = new int[256];
     TensorFloat encodedAudio;
     bool transcribe = false;
     string outputString = "";
+    // Maximum size of audioClip (30s at 16kHz)
+    const int maxSamples = 30 * 16000;
     void Start()
     {
         allocator = new TensorCachingAllocator();
         ops = WorkerFactory.CreateOps(backend, allocator);
+        SetupWhiteSpaceShifts();
         GetTokens();
     void EncodeAudio()
     {
+        using var input = new TensorFloat(new TensorShape(1, numSamples), data);
         if (numSamples > maxSamples)
         {
             Debug.Log("The AudioClip is too long.");
         }
         // Pad out to 30 seconds at 16khz if necessary
+        using var input30seconds = ops.Pad(input, new int[] { 0, 0, 0, maxSamples - numSamples });
         spectroEngine.Execute(input30seconds);
         var spectroOutput = spectroEngine.PeekOutput() as TensorFloat;
     {
         if (transcribe && currentToken < outputTokens.Length - 1)
         {
+            using var tokensSoFar = new TensorInt(new TensorShape(1, outputTokens.Length), outputTokens);
             var inputs = new Dictionary<string, Tensor>
             {
             decoderEngine.Execute(inputs);
             var tokensOut = decoderEngine.PeekOutput() as TensorFloat;
+            using var tokensPredictions = ops.ArgMax(tokensOut, 2, false);
             tokensPredictions.MakeReadable();
             int ID = tokensPredictions[currentToken];
             {
                 transcribe = false;
             }
+            else if (ID >= tokens.Length)
+            {
+                outputString += $"(time={(ID - START_TIME) * 0.02f})";
+            }
             else outputString += GetUnicodeText(tokens[ID]);
             Debug.Log(outputString);
         foreach (char letter in text)
         {
             outText += ((int)letter <= 256) ? letter :
+                (char)whiteSpaceCharacters[(int)(letter - 256)];
         }
         return outText;
     }
+    void SetupWhiteSpaceShifts()
     {
         for (int i = 0, n = 0; i < 256; i++)
         {
+            if (IsWhiteSpace((char)i)) whiteSpaceCharacters[n++] = i;
         }
     }
         encoderEngine?.Dispose();
         spectroEngine?.Dispose();
         ops?.Dispose();
+        allocator?.Dispose();
     }
 }