Spaces:

atlury
/

digitalhuman

Running

App Files Files Community

atlury commited on Sep 16, 2024

Commit

eacac69

verified ·

1 Parent(s): 2343fbf

Update index.html

Browse files

Files changed (1) hide show

index.html +21 -50

index.html CHANGED Viewed

@@ -1,17 +1,14 @@
 <!DOCTYPE html>
 <html lang="en">
 <head>
-    <!-- Meta and Title -->
     <meta charset="UTF-8">
     <meta name="viewport" content="width=device-width, initial-scale=1.0">
-    <title>Digital Human Voice Chat with LLM Integration</title>
-    <!-- External Scripts -->
     <script src="https://cdn.jsdelivr.net/npm/onnxruntime-web/dist/ort.js"></script>
     <script src="https://cdn.jsdelivr.net/npm/@ricky0123/[email protected]/dist/bundle.min.js"></script>
     <script src="https://cdn.jsdelivr.net/npm/@xenova/[email protected]"></script>
-    <!-- Styles -->
     <style>
         body {
             font-family: 'Segoe UI', Tahoma, Geneva, Verdana, sans-serif;
@@ -147,22 +144,16 @@
     </style>
 </head>
 <body>
-    <!-- Loading Spinner -->
     <div id="loading">
         <div class="spinner"></div>
     </div>
-    <!-- Main Container -->
     <div class="container">
         <h1>Digital Human Voice Chat</h1>
         <p class="subtitle">For best results, use headphones.</p>
         <div id="chat-container">
-            <!-- Controls -->
             <div id="controls">
                 <button id="startButton" disabled>Begin Call</button>
             </div>
-            <!-- Configuration -->
             <div id="configuration">
                 <select id="configSelect">
                     <option value="fastest">Fastest</option>
@@ -170,38 +161,31 @@
                     <option value="quality">Highest Quality</option>
                 </select>
                 <div id="model-info">
-                    TTS: Xenova/mms-tts-eng / STT: Xenova/whisper-tiny.en / LLM: sshleifer/tiny-gpt2
                 </div>
             </div>
-            <!-- Visualizer and Conversation -->
             <div id="visualizer"></div>
             <div id="conversation"></div>
         </div>
-        <!-- Logs -->
         <h2>Logs</h2>
         <div id="logs"></div>
         <button id="clear-logs">Clear</button>
     </div>
-    <!-- Hidden Video Elements -->
     <video id="localVideo" autoplay></video>
     <video id="remoteVideo" autoplay></video>
-    <!-- JavaScript Code -->
     <script type="module">
         import { pipeline, env } from 'https://cdn.jsdelivr.net/npm/@xenova/[email protected]';
-        // Configure environment before initializing pipelines
         env.localModelPath = './models';
         env.backends = ['wasm'];
         env.wasm = env.wasm || {};
         env.wasm.wasmPaths = 'https://cdn.jsdelivr.net/npm/@xenova/[email protected]/';
         env.wasm.simd = true;
         env.numThreads = navigator.hardwareConcurrency || 4;
-        // DOM Elements
         const conversationDiv = document.getElementById('conversation');
         const startButton = document.getElementById('startButton');
         const visualizer = document.getElementById('visualizer');
@@ -211,11 +195,10 @@
         const localVideo = document.getElementById('localVideo');
         const remoteVideo = document.getElementById('remoteVideo');
-        // Variables
         let myvad;
         let sttPipeline;
         let ttsPipeline;
-        let llmPipeline; // LLM Pipeline
         let audioContext;
         let analyser;
         let dataArray;
@@ -228,12 +211,7 @@
         let rtcConnection = null;
         let rtcLoopbackConnection = null;
         let loopbackStream = new MediaStream();
-        let conversationHistory = {
-            past_user_inputs: [],
-            generated_responses: []
-        };
-        // Create Visualizer
         function createVisualizer() {
             const barCount = 64;
             for (let i = 0; i < barCount; i++) {
@@ -244,7 +222,6 @@
             bars = visualizer.getElementsByClassName('bar');
         }
-        // Update Visualizer
         function updateVisualizer() {
             analyser.getByteFrequencyData(dataArray);
             for (let i = 0; i < bars.length; i++) {
@@ -254,16 +231,15 @@
             animationId = setTimeout(updateVisualizer, 50);
         }
-        // Initialize Pipelines
         async function initializePipelines() {
             try {
                 [sttPipeline, ttsPipeline, llmPipeline] = await Promise.all([
                     pipeline('automatic-speech-recognition', 'Xenova/whisper-tiny.en', { quantized: true }),
                     pipeline('text-to-speech', 'Xenova/mms-tts-eng', { quantized: true }),
-                    pipeline('text-generation', 'sshleifer/tiny-gpt2', { quantized: true }) // LLM Pipeline
                 ]);
-                addLog('System: Digital Human Voice Chat initialized. Click "Begin Call" to start.');
                 startButton.disabled = false;
                 loadingDiv.style.display = 'none';
             } catch (error) {
@@ -273,7 +249,6 @@
             }
         }
-        // Process Speech
         async function processSpeech(audio) {
             try {
                 if (!sttPipeline || !ttsPipeline || !llmPipeline) {
@@ -282,10 +257,12 @@
                 const transcription = await sttPipeline(audio);
                 addLog(`User: ${transcription.text}`);
-                // Generate Bot Response using LLM
-                const llmOutput = await llmPipeline(transcription.text, { max_length: 50 });
-                const botResponse = llmOutput[0].generated_text;
                 addLog(`Bot: ${botResponse}`);
                 isSpeaking = true;
@@ -298,7 +275,6 @@
             }
         }
-        // Add Log
         function addLog(message) {
             const now = new Date();
             const timestamp = now.toLocaleTimeString();
@@ -309,7 +285,6 @@
             logsDiv.scrollTop = logsDiv.scrollHeight;
         }
-        // Play Audio
         function playAudio(audioArray) {
             return new Promise((resolve) => {
                 const audioBuffer = audioContext.createBuffer(1, audioArray.length, 16000);
@@ -329,7 +304,6 @@
             });
         }
-        // Stop Current Audio
         function stopCurrentAudio() {
             if (currentAudioSource) {
                 currentAudioSource.stop();
@@ -337,7 +311,6 @@
             }
         }
-        // Toggle Listening
         async function toggleListening() {
             if (isListening) {
                 await stopListening();
@@ -346,7 +319,6 @@
             }
         }
-        // Start Listening
         async function startListening() {
             try {
                 audioContext = new (window.AudioContext || window.webkitAudioContext)();
@@ -356,11 +328,12 @@
                 localVideo.volume = 0;
                 localVideo.muted = true;
                 remoteVideo.volume = 0;
                 remoteVideo.muted = true;
-                // Request Audio and Minimal Video for Echo Cancellation
                 microphoneStream = await navigator.mediaDevices.getUserMedia({
                     audio: true,
                     video: { width: 1, height: 1 }
@@ -369,7 +342,9 @@
                 localVideo.srcObject = microphoneStream;
                 await localVideo.play();
-                // Implement Loopback for Echo Cancellation
                 const offerOptions = {
                     offerToReceiveAudio: true,
                     offerToReceiveVideo: false,
@@ -392,7 +367,6 @@
                 await rtcLoopbackConnection.setLocalDescription(answer);
                 await rtcConnection.setRemoteDescription(answer);
-                // Use Loopback Stream for Audio Processing
                 const source = audioContext.createMediaStreamSource(loopbackStream);
                 source.connect(analyser);
@@ -425,7 +399,6 @@
             }
         }
-        // Stop Listening
         async function stopListening() {
             if (myvad) {
                 try {
@@ -466,15 +439,13 @@
             addLog('System: Microphone closed');
         }
-        // Event Listeners
         startButton.addEventListener('click', toggleListening);
         clearLogsButton.addEventListener('click', () => {
             logsDiv.innerHTML = '';
         });
-        // Initialize
         createVisualizer();
         initializePipelines();
     </script>
 </body>
-</html>

 <!DOCTYPE html>
 <html lang="en">
 <head>
     <meta charset="UTF-8">
     <meta name="viewport" content="width=device-width, initial-scale=1.0">
+    <title>Voice Chat Bot with Advanced Echo Cancellation and TinyLLM</title>
     <script src="https://cdn.jsdelivr.net/npm/onnxruntime-web/dist/ort.js"></script>
     <script src="https://cdn.jsdelivr.net/npm/@ricky0123/[email protected]/dist/bundle.min.js"></script>
     <script src="https://cdn.jsdelivr.net/npm/@xenova/[email protected]"></script>
     <style>
         body {
             font-family: 'Segoe UI', Tahoma, Geneva, Verdana, sans-serif;
     </style>
 </head>
 <body>
     <div id="loading">
         <div class="spinner"></div>
     </div>
     <div class="container">
         <h1>Digital Human Voice Chat</h1>
         <p class="subtitle">For best results, use headphones.</p>
         <div id="chat-container">
             <div id="controls">
                 <button id="startButton" disabled>Begin Call</button>
             </div>
             <div id="configuration">
                 <select id="configSelect">
                     <option value="fastest">Fastest</option>
                     <option value="quality">Highest Quality</option>
                 </select>
                 <div id="model-info">
+                    TTS: Xenova/mms-tts-eng / STT: Xenova/whisper-tiny.en / LLM: Xenova/tiny-llm
                 </div>
             </div>
             <div id="visualizer"></div>
             <div id="conversation"></div>
         </div>
         <h2>Logs</h2>
         <div id="logs"></div>
         <button id="clear-logs">Clear</button>
     </div>
     <video id="localVideo" autoplay></video>
     <video id="remoteVideo" autoplay></video>
     <script type="module">
         import { pipeline, env } from 'https://cdn.jsdelivr.net/npm/@xenova/[email protected]';
         env.localModelPath = './models';
+        // Configure environment before initializing pipelines
         env.backends = ['wasm'];
         env.wasm = env.wasm || {};
         env.wasm.wasmPaths = 'https://cdn.jsdelivr.net/npm/@xenova/[email protected]/';
         env.wasm.simd = true;
         env.numThreads = navigator.hardwareConcurrency || 4;
         const conversationDiv = document.getElementById('conversation');
         const startButton = document.getElementById('startButton');
         const visualizer = document.getElementById('visualizer');
         const localVideo = document.getElementById('localVideo');
         const remoteVideo = document.getElementById('remoteVideo');
         let myvad;
         let sttPipeline;
         let ttsPipeline;
+        let llmPipeline;
         let audioContext;
         let analyser;
         let dataArray;
         let rtcConnection = null;
         let rtcLoopbackConnection = null;
         let loopbackStream = new MediaStream();
         function createVisualizer() {
             const barCount = 64;
             for (let i = 0; i < barCount; i++) {
             bars = visualizer.getElementsByClassName('bar');
         }
         function updateVisualizer() {
             analyser.getByteFrequencyData(dataArray);
             for (let i = 0; i < bars.length; i++) {
             animationId = setTimeout(updateVisualizer, 50);
         }
         async function initializePipelines() {
             try {
                 [sttPipeline, ttsPipeline, llmPipeline] = await Promise.all([
                     pipeline('automatic-speech-recognition', 'Xenova/whisper-tiny.en', { quantized: true }),
                     pipeline('text-to-speech', 'Xenova/mms-tts-eng', { quantized: true }),
+                    pipeline('text-generation', 'Xenova/tiny-llm')
                 ]);
+                addLog('System: Digital Human Voice Chat initialized with TinyLLM. Click "Begin Call" to start.');
                 startButton.disabled = false;
                 loadingDiv.style.display = 'none';
             } catch (error) {
             }
         }
         async function processSpeech(audio) {
             try {
                 if (!sttPipeline || !ttsPipeline || !llmPipeline) {
                 const transcription = await sttPipeline(audio);
                 addLog(`User: ${transcription.text}`);
+                const llmResponse = await llmPipeline(transcription.text, {
+                    max_new_tokens: 50,
+                    temperature: 0.7
+                });
+                const botResponse = llmResponse[0].generated_text;
                 addLog(`Bot: ${botResponse}`);
                 isSpeaking = true;
             }
         }
         function addLog(message) {
             const now = new Date();
             const timestamp = now.toLocaleTimeString();
             logsDiv.scrollTop = logsDiv.scrollHeight;
         }
         function playAudio(audioArray) {
             return new Promise((resolve) => {
                 const audioBuffer = audioContext.createBuffer(1, audioArray.length, 16000);
             });
         }
         function stopCurrentAudio() {
             if (currentAudioSource) {
                 currentAudioSource.stop();
             }
         }
         async function toggleListening() {
             if (isListening) {
                 await stopListening();
             }
         }
         async function startListening() {
             try {
                 audioContext = new (window.AudioContext || window.webkitAudioContext)();
                 localVideo.volume = 0;
                 localVideo.muted = true;
+                document.getElementById('localVideo').volume = 0;
                 remoteVideo.volume = 0;
                 remoteVideo.muted = true;
+                document.getElementById('remoteVideo').volume = 0;
                 microphoneStream = await navigator.mediaDevices.getUserMedia({
                     audio: true,
                     video: { width: 1, height: 1 }
                 localVideo.srcObject = microphoneStream;
                 await localVideo.play();
+                console.log('Active constraints:', microphoneStream.getAudioTracks()[0].getConstraints());
+                console.log('Microphone stream settings:', microphoneStream.getAudioTracks()[0].getSettings());
                 const offerOptions = {
                     offerToReceiveAudio: true,
                     offerToReceiveVideo: false,
                 await rtcLoopbackConnection.setLocalDescription(answer);
                 await rtcConnection.setRemoteDescription(answer);
                 const source = audioContext.createMediaStreamSource(loopbackStream);
                 source.connect(analyser);
             }
         }
         async function stopListening() {
             if (myvad) {
                 try {
             addLog('System: Microphone closed');
         }
         startButton.addEventListener('click', toggleListening);
         clearLogsButton.addEventListener('click', () => {
             logsDiv.innerHTML = '';
         });
         createVisualizer();
         initializePipelines();
     </script>
 </body>
+</html>