update

tom-sapletta-com · tom-sapletta-com · commit bbbdf90d5d07 · 2025-05-13T15:32:50.000+02:00
diff --git a/containers/llm-orchestrator-min/api.py b/containers/llm-orchestrator-min/api.py
@@ -8,42 +8,62 @@
 # Ścieżka do modelu
 MODEL_PATH = "/app/models/tinyllama"
 
-# Ładowanie modelu i tokenizera
+# Konfiguracja optymalizacji
+USE_INT8 = os.environ.get('USE_INT8', 'true').lower() == 'true'
+DEVICE = "cpu"
+
 print("Ładowanie modelu TinyLlama-1.1B...")
+print(f"Optymalizacje: USE_INT8={USE_INT8}, DEVICE={DEVICE}")
+
+# Ładowanie tokenizera
 tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
+
+# Ładowanie modelu z optymalizacjami
 model = AutoModelForCausalLM.from_pretrained(
     MODEL_PATH,
     torch_dtype=torch.float32,  # Używamy float32 dla CPU
-    low_cpu_mem_usage=True
+    low_cpu_mem_usage=True,
+    load_in_8bit=USE_INT8,  # Kwantyzacja int8 dla mniejszego zużycia pamięci
+    device_map=DEVICE
 )
-print("Model załadowany!")
+
+# Optymalizacja pamięci po załadowaniu modelu
+torch.cuda.empty_cache() if torch.cuda.is_available() else None
+print("Model załadowany i zoptymalizowany!")
 
 @app.route('/api/generate', methods=['POST'])
 def generate():
     try:
         data = request.json
         prompt = data.get('prompt', '')
         max_length = data.get('max_length', 256)
+        temperature = data.get('temperature', 0.7)
+        top_p = data.get('top_p', 0.9)
         
         # Formatowanie promptu dla modelu czatowego
         chat_prompt = f"<human>: {prompt}\n<assistant>:"
         
-        # Generowanie odpowiedzi
-        inputs = tokenizer(chat_prompt, return_tensors="pt")
-        outputs = model.generate(
-            inputs.input_ids,
-            max_length=max_length,
-            temperature=0.7,
-            top_p=0.9,
-            do_sample=True
-        )
+        # Generowanie odpowiedzi z optymalizacją pamięci
+        with torch.no_grad():  # Wyłączamy gradient dla oszczędności pamięci
+            inputs = tokenizer(chat_prompt, return_tensors="pt")
+            outputs = model.generate(
+                inputs.input_ids,
+                max_length=max_length,
+                temperature=temperature,
+                top_p=top_p,
+                do_sample=True
+            )
         
         # Dekodowanie odpowiedzi
         response = tokenizer.decode(outputs[0], skip_special_tokens=True)
         
         # Wyodrębnienie odpowiedzi asystenta
         assistant_response = response.split("<assistant>:")[-1].strip()
         
+        # Zwolnienie pamięci
+        del inputs, outputs
+        torch.cuda.empty_cache() if torch.cuda.is_available() else None
+        
         return jsonify({
             "response": assistant_response,
             "success": True
@@ -56,7 +76,19 @@ def generate():
 
 @app.route('/api/health', methods=['GET'])
 def health():
-    return jsonify({"status": "ok"})
+    # Dodajemy informacje o zużyciu pamięci
+    import psutil
+    memory_info = {
+        "total_memory_gb": round(psutil.virtual_memory().total / (1024**3), 2),
+        "used_memory_gb": round(psutil.virtual_memory().used / (1024**3), 2),
+        "percent_used": psutil.virtual_memory().percent
+    }
+    
+    return jsonify({
+        "status": "ok",
+        "memory_info": memory_info
+    })
 
 if __name__ == '__main__':
-    app.run(host='0.0.0.0', port=5000)
+    # Używamy threaded=False dla mniejszego zużycia pamięci w przypadku małych modeli
+    app.run(host='0.0.0.0', port=5000, threaded=False)
diff --git a/containers/llm-orchestrator-min/requirements.txt b/containers/llm-orchestrator-min/requirements.txt
@@ -9,3 +9,5 @@ flask==2.3.3
 numpy==1.24.3
 requests==2.31.0
 python-dotenv==1.0.0
+psutil==5.9.5
+bitsandbytes==0.40.2
diff --git a/docker-compose.min.yml b/docker-compose.min.yml
@@ -4,11 +4,24 @@ services:
   llm-orchestrator-min:
     build:
       context: ./containers/llm-orchestrator-min
+      args:
+        - BUILDKIT_INLINE_CACHE=1
     container_name: llm-orchestrator-min
     volumes:
       - ./volumes/models:/app/models
       - ./volumes/config:/app/config
       - pip-cache:/root/.cache/pip
+    environment:
+      - USE_INT8=true
+      - PYTHONUNBUFFERED=1
+      - FLASK_ENV=production
+    deploy:
+      resources:
+        limits:
+          memory: 2G
+        reservations:
+          memory: 1G
+    restart: unless-stopped
     ports:
       - "5000:5000"  # API LLM
     networks:
@@ -17,12 +30,20 @@ services:
   browser-service:
     build:
       context: ./containers/browser-service
+      args:
+        - BUILDKIT_INLINE_CACHE=1
     container_name: browser-service
     volumes:
       - ./volumes/recordings:/app/recordings
       - pip-cache:/root/.cache/pip
     environment:
       - DISPLAY=:99
+      - PYTHONUNBUFFERED=1
+    deploy:
+      resources:
+        limits:
+          memory: 1G
+    restart: unless-stopped
     ports:
       - "5900:5900"  # VNC
     networks:
@@ -31,7 +52,14 @@ services:
   novnc:
     build:
       context: ./containers/novnc
+      args:
+        - BUILDKIT_INLINE_CACHE=1
     container_name: novnc
+    deploy:
+      resources:
+        limits:
+          memory: 256M
+    restart: unless-stopped
     ports:
       - "8080:8080"  # noVNC Web UI
     networks:
diff --git a/runmin.sh b/runmin.sh
@@ -13,6 +13,12 @@ echo -e "- Prosty model LLM działający na CPU (do 2B parametrów)"
 echo -e "- Przeglądarka dostępna przez noVNC"
 echo -e "- Brak menedżerów haseł, pipelines i sterowania głosowego"
 echo -e "- Zoptymalizowane cacheowanie paczek"
+echo -e "- Kwantyzacja int8 dla mniejszego zużycia pamięci"
+echo -e "- Limity zasobów dla kontenerów"
+
+# Włączenie BuildKit dla szybszego budowania
+export DOCKER_BUILDKIT=1
+export COMPOSE_DOCKER_CLI_BUILD=1
 
 # Sprawdzenie czy Docker jest zainstalowany
 if ! command -v docker &> /dev/null; then
@@ -41,10 +47,27 @@ else
     echo -e "${GREEN}Wolumen pip-cache już istnieje.${NC}"
 fi
 
+# Sprawdzenie dostępnej pamięci
+MEM_TOTAL=$(free -g | awk '/^Mem:/{print $2}')
+echo -e "${YELLOW}Dostępna pamięć: ${MEM_TOTAL}GB${NC}"
+
+if [ "$MEM_TOTAL" -lt 4 ]; then
+    echo -e "${RED}Uwaga: Dostępna pamięć poniżej 4GB. Wydajność może być ograniczona.${NC}"
+    # Zmniejszamy limity pamięci dla kontenerów
+    sed -i 's/memory: 2G/memory: 1G/g' docker-compose.min.yml
+    sed -i 's/memory: 1G/memory: 512M/g' docker-compose.min.yml
+    sed -i 's/memory: 256M/memory: 128M/g' docker-compose.min.yml
+    echo -e "${YELLOW}Limity pamięci zostały automatycznie zmniejszone.${NC}"
+fi
+
 # Zatrzymanie istniejących kontenerów, jeśli istnieją
 echo -e "${YELLOW}Zatrzymywanie istniejących kontenerów, jeśli istnieją...${NC}"
 docker-compose -f docker-compose.min.yml down 2>/dev/null
 
+# Czyszczenie nieużywanych obrazów i wolumenów dla oszczędności miejsca
+echo -e "${YELLOW}Czyszczenie nieużywanych zasobów Docker...${NC}"
+docker system prune -f --volumes 2>/dev/null
+
 # Budowanie i uruchamianie kontenerów
 echo -e "${GREEN}Budowanie i uruchamianie kontenerów...${NC}"
 echo -e "${YELLOW}Pierwsze uruchomienie może potrwać dłużej, kolejne będą szybsze dzięki cache.${NC}"
@@ -85,7 +108,28 @@ open_browser() {
 
 # Czekanie na uruchomienie usług
 echo -e "${YELLOW}Czekanie na uruchomienie usług...${NC}"
-sleep 10
+echo -e "${YELLOW}Sprawdzanie statusu API LLM...${NC}"
+
+# Sprawdzanie, czy API jest gotowe
+MAX_RETRIES=30
+RETRY_COUNT=0
+API_READY=false
+
+while [ $RETRY_COUNT -lt $MAX_RETRIES ]; do
+  if curl -s http://localhost:5000/api/health | grep -q "status.*ok"; then
+    API_READY=true
+    break
+  fi
+  echo -n "."
+  RETRY_COUNT=$((RETRY_COUNT+1))
+  sleep 2
+done
+
+if [ "$API_READY" = true ]; then
+  echo -e "\n${GREEN}API LLM jest gotowe!${NC}"
+else
+  echo -e "\n${YELLOW}Upłynął limit czasu oczekiwania na API LLM. Kontynuowanie mimo to...${NC}"
+fi
 
 # Otwieranie noVNC w przeglądarce
 echo -e "${GREEN}Otwieranie noVNC w przeglądarce...${NC}"
@@ -94,6 +138,12 @@ open_browser "http://localhost:8080/vnc.html?autoconnect=true&password=secret"
 echo -e "${GREEN}=== coBoarding - Minimalna Wersja uruchomiona ===${NC}"
 echo -e "noVNC dostępny pod adresem: http://localhost:8080/vnc.html?autoconnect=true&password=secret"
 echo -e "API LLM dostępne pod adresem: http://localhost:5000"
+
+# Wyświetlanie informacji o zużyciu zasobów
+echo -e "${YELLOW}Informacje o zużyciu zasobów:${NC}"
+docker stats --no-stream
+
 echo -e "${YELLOW}Aby zatrzymać, użyj: docker-compose -f docker-compose.min.yml down${NC}"
 echo -e "${GREEN}Informacja o cache:${NC} Paczki Pythona są przechowywane w wolumenie Docker 'coboarding-pip-cache'"
 echo -e "Dzięki temu kolejne uruchomienia będą znacznie szybsze."
+echo -e "${GREEN}Optymalizacje:${NC} Kwantyzacja int8, limity pamięci, BuildKit, cacheowanie paczek"