Initial commit - Crawler SEO (with AI Agent prompt)

2026-05-09 11:10:06 +02:00
commit 8411593c55
5 changed files with 1193 additions and 0 deletions
@@ -0,0 +1,27 @@
+# Wyniki skanowania (duże pliki binarne)
+scans/*.db
+scans/*.tmp
+*.db
+*.db-journal
+*.csv
+
+# Konfiguracja (zawiera tokeny)
+# Jeśli chcesz współdzielić config przez Git, zakomentuj poniższą linię
+config.json
+
+# Python
+__pycache__/
+*.py[cod]
+*$py.class
+.venv/
+env/
+venv/
+ENV/
+
+# Systemowe / Syncthing
+.sync/
+.stfolder/
+.stignore
+*~sync*
+.DS_Store
+Thumbs.db
@@ -0,0 +1,443 @@
+import requests
+from bs4 import BeautifulSoup
+import time
+import sys
+import json
+import sqlite3
+import argparse
+import glob
+import html
+from datetime import datetime
+from urllib.parse import urljoin, urlparse
+from urllib.robotparser import RobotFileParser
+import threading
+import queue
+import os
+
+if os.name == 'nt': os.system('color')
+
+GOOGLEBOT_UA = "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
+
+class TelegramNotifier:
+    def __init__(self, token, chat_id_info, chat_id_errors):
+        self.token = token
+        self.chat_id_info = chat_id_info
+        self.chat_id_errors = chat_id_errors or chat_id_info
+        self.enabled = True if token and chat_id_info else False
+        self.critical_errors = []
+        self.schema_errors = []
+        self.translation_issues = []
+        self.lock = threading.Lock()
+
+    def send(self, message, target='info'):
+        if not self.enabled: return
+        cid = self.chat_id_info if target == 'info' else self.chat_id_errors
+        url = f"https://api.telegram.org/bot{self.token}/sendMessage"
+        try:
+            r = requests.post(url, json={"chat_id": cid, "text": message, "parse_mode": "HTML"}, timeout=15)
+            if r.status_code != 200:
+                print(f"\n[!] Telegram Error ({target}): {r.text}")
+        except Exception as e:
+            print(f"\n[!] Connection Error (Telegram): {e}")
+
+    def add_critical(self, url, msg):
+        with self.lock:
+            if len(self.critical_errors) < 30: self.critical_errors.append((url, msg))
+
+    def add_schema(self, url, count):
+        with self.lock:
+            if len(self.schema_errors) < 15: self.schema_errors.append((url, count))
+
+    def add_translation_issue(self, sku, lang1, lang2, field):
+        with self.lock:
+            if len(self.translation_issues) < 15:
+                self.translation_issues.append(f"SKU {sku}: {field} identyczny w {lang1} i {lang2}")
+
+    def get_prev_404_count(self, current_db):
+        # Szukamy baz danych w podkatalogu scans, sortujemy po czasie modyfikacji
+        dbs = glob.glob("scans/crawler_v*.db")
+        dbs.sort(key=os.path.getmtime, reverse=True)
+        
+        prev_db = None
+        for d in dbs:
+            if os.path.basename(d) != os.path.basename(current_db):
+                prev_db = d
+                break
+        if not prev_db: return None
+        try:
+            conn = sqlite3.connect(prev_db)
+            count = conn.execute("SELECT COUNT(*) FROM pages WHERE status = 404").fetchone()[0]
+            conn.close()
+            return count
+        except: return None
+
+    def send_final_report(self, start_url, total, errors, db_file, search_results=-1):
+        if not self.enabled:
+            print("\n[!] Powiadomienia Telegram są wyłączone (brak konfiguracji).")
+            return
+        
+        # Analiza 404 i innych błędów
+        current_404 = 0
+        schema_errs = 0
+        transl_errs = 0
+        try:
+            conn = sqlite3.connect(db_file)
+            current_404 = conn.execute("SELECT COUNT(*) FROM pages WHERE status = 404").fetchone()[0]
+            schema_errs = conn.execute("SELECT COUNT(*) FROM pages WHERE schema_critical > 0").fetchone()[0]
+            transl_errs = conn.execute("SELECT COUNT(*) FROM translation_audit").fetchone()[0]
+            conn.close()
+        except: pass
+        
+        prev_404 = self.get_prev_404_count(db_file)
+        regression_str = ""
+        if prev_404 is not None:
+            diff = current_404 - prev_404
+            if diff > 0: regression_str = f" (<b>+{diff} NOWE!</b> ⚠️)"
+            elif diff < 0: regression_str = f" ({diff} naprawione)"
+            else: regression_str = " (bez zmian)"
+
+        # 1. RAPORT INFO
+        domain = html.escape(urlparse(start_url).netloc)
+        
+        total_icon = "✅"
+        http_icon = "✅" if errors == 0 else "❌"
+        err404_icon = "✅" if current_404 == 0 else "❌"
+        schema_icon = "✅" if schema_errs == 0 else "❌"
+        transl_icon = "✅" if transl_errs == 0 else "❌"
+        search_icon = "✅" if search_results > 0 else "❌"
+
+        schema_text = "poprawne" if schema_errs == 0 else f"{schema_errs} błędów"
+        transl_text = "poprawne" if transl_errs == 0 else f"{transl_errs} błędów"
+        search_text = f"{search_results}" if search_results >= 0 else "BŁĄD"
+
+        info_msg = f"🏁 <b>AUDYT ZAKOŃCZONY: {domain}</b>\n\n"
+        info_msg += f"{total_icon} Przeskanowano: {total}\n"
+        info_msg += f"{http_icon} Błędy HTTP: {errors}\n"
+        info_msg += f"{err404_icon} Błędy 404: {current_404}{regression_str}\n"
+        info_msg += f"{schema_icon} Dane strukturalne: {schema_text}\n"
+        info_msg += f"{transl_icon} Tłumaczenia: {transl_text}\n"
+        info_msg += f"{search_icon} Wyszukiwarka: {search_text}\n\n"
+        
+        if self.critical_errors or self.schema_errors or self.translation_issues:
+            info_msg += f"🚨 Wykryto błędy. Szczegóły na kanale ERRORS."
+        else:
+            info_msg += f"✅ Brak krytycznych błędów."
+        self.send(info_msg, target='info')
+
+        # 2. RAPORT ERRORS
+        if self.critical_errors or self.schema_errors or self.translation_issues:
+            err_msg = f"🚨 <b>BŁĘDY: {domain}</b>\n\n"
+            
+            prompt_text = (
+                "Twoim zadaniem jest weryfikacja poniższych błędów na sklepie i przygotowanie planu naprawy. "
+                "Znasz strukturę plików, masz dostęp do bazy danych sklepu oraz wiesz jak działają wszystkie mechanizmy cache. "
+                "WAŻNE: Podane błędy zostały wykryte przez crawler, który analizował wyrenderowany kod HTML stron sklepu. "
+                "Crawler nie sprawdzał bazy danych – może być tak, że w bazie dane są w pełni poprawne, "
+                "a problem leży po stronie modułów (np. wstrzykujących dane strukturalne do źródła strony).\n"
+                "Oto zestawienie błędów do przeanalizowania:\n\n"
+            )
+
+            if self.critical_errors:
+                err_msg += f"❌ <b>KRYTYCZNE:</b>\n"
+                prompt_text += "BŁĘDY KRYTYCZNE:\n"
+                for url, err in self.critical_errors[:15]:
+                    safe_url = html.escape(url)
+                    err_msg += f"• {err}: {safe_url}\n"
+                    prompt_text += f"- {err}: {url}\n"
+                err_msg += "\n"
+                prompt_text += "\n"
+                
+            if self.schema_errors:
+                err_msg += f"🛠 <b>SCHEMA.ORG:</b>\n"
+                prompt_text += "BŁĘDY SCHEMA.ORG:\n"
+                for url, count in self.schema_errors[:10]:
+                    safe_url = html.escape(url)
+                    err_msg += f"• Brak {count} pól: {safe_url}\n"
+                    prompt_text += f"- Brak {count} pól: {url}\n"
+                err_msg += "\n"
+                prompt_text += "\n"
+                
+            if self.translation_issues:
+                err_msg += f"🌐 <b>TŁUMACZENIA:</b>\n"
+                prompt_text += "BŁĘDY TŁUMACZEŃ:\n"
+                for issue in self.translation_issues[:10]:
+                    err_msg += f"• {html.escape(issue)}\n"
+                    prompt_text += f"- {issue}\n"
+                err_msg += "\n"
+                prompt_text += "\n"
+                
+            err_msg += f"🤖 <b>Gotowy prompt dla Agenta AI:</b>\n"
+            err_msg += f"<pre><code class=\"language-text\">{html.escape(prompt_text.strip())}</code></pre>"
+            
+            self.send(err_msg, target='errors')
+
+def crawler(start_url, db_file, max_threads, tg_notifier):
+    parsed_start = urlparse(start_url)
+    base_url = f"{parsed_start.scheme}://{parsed_start.netloc}"
+    base_domain = parsed_start.netloc
+    conn = sqlite3.connect(db_file, check_same_thread=False)
+    cursor = conn.cursor()
+    cursor.execute('''CREATE TABLE IF NOT EXISTS pages (
+                        id INTEGER PRIMARY KEY AUTOINCREMENT,
+                        url TEXT UNIQUE, source_url TEXT, status INTEGER,
+                        total_time REAL, ttfb REAL, google_access TEXT, index_status TEXT,
+                        schema_critical INTEGER DEFAULT 0, schema_warnings INTEGER DEFAULT 0,
+                        images_no_alt INTEGER DEFAULT 0, images_no_webp INTEGER DEFAULT 0,
+                        title TEXT, meta_desc TEXT, canonical TEXT,
+                        lang TEXT, timestamp DATETIME)''')
+    cursor.execute('''CREATE TABLE IF NOT EXISTS structured_data (id INTEGER PRIMARY KEY AUTOINCREMENT, page_id INTEGER, schema_type TEXT, full_json TEXT, sku TEXT, FOREIGN KEY(page_id) REFERENCES pages(id))''')
+    cursor.execute('''CREATE TABLE IF NOT EXISTS translation_audit (id INTEGER PRIMARY KEY AUTOINCREMENT, sku TEXT, field TEXT, lang1 TEXT, lang2 TEXT, content TEXT)''')
+    cursor.execute('''CREATE TABLE IF NOT EXISTS images_audit (id INTEGER PRIMARY KEY AUTOINCREMENT, page_id INTEGER, img_url TEXT, alt TEXT, is_modern INTEGER, has_modern_source INTEGER, FOREIGN KEY(page_id) REFERENCES pages(id))''')
+    conn.commit()
+
+    db_queue = queue.Queue()
+    def db_worker():
+        db_conn = sqlite3.connect(db_file)
+        db_cursor = db_conn.cursor()
+        while True:
+            item = db_queue.get()
+            if item is None: break
+            try:
+                p = item['page']
+                db_cursor.execute('''INSERT OR REPLACE INTO pages (url, source_url, status, total_time, ttfb, google_access, index_status, schema_critical, schema_warnings, images_no_alt, images_no_webp, title, meta_desc, canonical, lang, timestamp) VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)''', (p['url'], p['source'], p['status'], p['time'], p['ttfb'], p['access'], p['idx'], p['s_crit'], p['s_warn'], p.get('images_no_alt',0), p.get('images_no_webp',0), p.get('title',''), p.get('meta_desc',''), p.get('canonical',''), p['lang'], p['ts']))
+                page_id = db_cursor.lastrowid
+                for s in item['schemas']: db_cursor.execute('INSERT INTO structured_data (page_id, schema_type, full_json, sku) VALUES (?, ?, ?, ?)', (page_id, s['type'], s['json'], s.get('sku')))
+                if 'images' in item:
+                    for img in item['images']: db_cursor.execute('INSERT INTO images_audit (page_id, img_url, alt, is_modern, has_modern_source) VALUES (?, ?, ?, ?, ?)', (page_id, img['img_url'], img['alt'], img['is_modern'], img['has_modern_source']))
+                db_conn.commit()
+            except: pass
+            finally: db_queue.task_done()
+        db_conn.close()
+
+    db_thread = threading.Thread(target=db_worker)
+    db_thread.start()
+    rp = RobotFileParser()
+    try: rp.set_url(urljoin(base_url, "robots.txt")); rp.read()
+    except: pass
+
+    visited, crawled_count, error_count = {start_url}, 0, 0
+    total_response_time = 0.0
+    visited_lock, stats_lock = threading.Lock(), threading.Lock()
+    url_queue = queue.Queue()
+    url_queue.put((start_url, "Start"))
+    stop_event = threading.Event()
+    session = requests.Session()
+    session.headers.update({'User-Agent': GOOGLEBOT_UA})
+
+    def analyze_schema(soup):
+        scripts = soup.find_all('script', type='application/ld+json')
+        results, crit, warn = [], 0, 0
+        def get_val(obj, path):
+            curr = obj
+            for p in path.split('.'):
+                if isinstance(curr, dict) and p in curr: curr = curr[p]
+                else: return None
+            return curr
+        for script in scripts:
+            try:
+                data = json.loads(script.string)
+                objs = data if isinstance(data, list) else [data]
+                for obj in objs:
+                    if not isinstance(obj, dict): continue
+                    sku = get_val(obj, 'sku') or get_val(obj, 'mpn')
+                    if 'Product' in str(obj.get('@type', '')):
+                        if not get_val(obj, 'name') or not get_val(obj, 'image') or not get_val(obj, 'offers.price'): crit += 1
+                    results.append({'type': str(obj.get('@type', 'Unknown')), 'json': json.dumps(obj, ensure_ascii=False), 'sku': str(sku) if sku else None})
+            except: pass
+        return results, crit, warn
+
+    def analyze_images(soup, url):
+        images_data = []
+        no_alt, no_webp = 0, 0
+        for img in soup.find_all('img'):
+            src = img.get('src') or img.get('data-src') or ''
+            if not src or src.startswith('data:image'): continue
+            alt = img.get('alt', '').strip() if img.get('alt') is not None else ''
+            alt_text = alt if alt else '[BRAK]'
+            is_modern = src.lower().endswith(('.webp', '.avif', '.svg'))
+            parent = img.find_parent('picture')
+            has_modern_source = False
+            if parent:
+                for source in parent.find_all('source'):
+                    srcs = source.get('srcset', '')
+                    typ = source.get('type', '')
+                    if 'webp' in srcs.lower() or 'avif' in srcs.lower() or 'webp' in typ or 'avif' in typ:
+                        has_modern_source = True
+                        break
+            if not has_modern_source:
+                srcset = img.get('srcset', '')
+                if 'webp' in srcset.lower() or 'avif' in srcset.lower():
+                    has_modern_source = True
+            images_data.append({
+                'img_url': urljoin(url, src), 'alt': alt_text,
+                'is_modern': int(is_modern), 'has_modern_source': int(has_modern_source)
+            })
+            if alt_text == '[BRAK]': no_alt += 1
+            if not is_modern and not has_modern_source: no_webp += 1
+        return images_data, no_alt, no_webp
+
+    def process_url(url, source):
+        nonlocal crawled_count, error_count, total_response_time
+        if not rp.can_fetch("Googlebot", url):
+            tg_notifier.add_critical(url, "ROBOTS.TXT BLOCK")
+            db_queue.put({'page': {'url': url, 'source': source, 'status': 0, 'time': 0, 'ttfb': 0, 'access': 'Blocked', 'idx': '-', 's_crit': 0, 's_warn': 0, 'images_no_alt': 0, 'images_no_webp': 0, 'title': '', 'meta_desc': '', 'canonical': '', 'lang': '?', 'ts': datetime.now().isoformat()}, 'schemas': [], 'images': []})
+            return
+        try:
+            start_t = time.time()
+            resp = session.get(url, timeout=10, stream=True)
+            ttfb = round(time.time() - start_t, 4)
+            soup = BeautifulSoup(resp.text, 'lxml')
+            total_t = round(time.time() - start_t, 4)
+            lang = soup.find('html').get('lang', 'unknown') if soup.find('html') else 'unknown'
+            schemas, s_crit, s_warn = analyze_schema(soup)
+            idx = "Indexable"
+            if 'noindex' in resp.headers.get('X-Robots-Tag', '').lower(): idx = "Noindex"
+            elif soup.find('meta', attrs={'name': ['robots', 'googlebot'], 'content': lambda x: x and 'noindex' in x.lower()}): idx = "Noindex"
+            
+            
+            title_tag = soup.find('title')
+            title = title_tag.text.strip() if title_tag else ''
+            meta_desc_tag = soup.find('meta', attrs={'name': 'description'})
+            meta_desc = meta_desc_tag.get('content', '').strip() if meta_desc_tag else ''
+            canonical_tag = soup.find('link', rel='canonical')
+            canonical = canonical_tag.get('href', '').strip() if canonical_tag else ''
+
+            images_data, no_alt, no_webp = analyze_images(soup, url)
+
+            if resp.status_code >= 500: tg_notifier.add_critical(url, f"ERR {resp.status_code}")
+            if resp.status_code == 404: tg_notifier.add_critical(url, "404")
+            if s_crit > 0: tg_notifier.add_schema(url, s_crit)
+
+            db_queue.put({'page': {'url': url, 'source': source, 'status': resp.status_code, 'time': total_t, 'ttfb': ttfb, 'access': 'Allowed', 'idx': idx, 's_crit': s_crit, 's_warn': s_warn, 'images_no_alt': no_alt, 'images_no_webp': no_webp, 'title': title, 'meta_desc': meta_desc, 'canonical': canonical, 'lang': lang, 'ts': datetime.now().isoformat()}, 'schemas': schemas, 'images': images_data})
+            with stats_lock:
+                crawled_count += 1
+                total_response_time += total_t
+                if resp.status_code != 200: error_count += 1
+            if resp.status_code == 200 and 'text/html' in resp.headers.get('Content-Type', ''):
+                for link in soup.find_all('a', href=True):
+                    full = urljoin(url, link['href'])
+                    parsed = urlparse(full)
+                    if parsed.netloc == base_domain:
+                        clean = parsed._replace(query='', fragment='').geturl()
+                        with visited_lock:
+                            if clean not in visited: visited.add(clean); url_queue.put((clean, url))
+        except:
+            with stats_lock: error_count += 1
+
+    def worker():
+        while not stop_event.is_set():
+            try: u, s = url_queue.get(timeout=0.5); process_url(u, s); url_queue.task_done()
+            except queue.Empty: continue
+
+    threads = [threading.Thread(target=worker, daemon=True) for _ in range(max_threads)]
+    for t in threads: t.start()
+    try:
+        while not stop_event.is_set() and url_queue.unfinished_tasks > 0:
+            with stats_lock:
+                cc = crawled_count
+                err = error_count
+                avg = round(total_response_time / cc, 3) if cc > 0 else 0
+            q_size = url_queue.unfinished_tasks
+            print(f"\r[AUDYT] Skanowanie: {cc} | Błędy: {err} | Kolejka: {q_size} | Średni czas: {avg}s    ", end="")
+            time.sleep(0.5)
+    except KeyboardInterrupt: 
+        print("\n[!] Przerwano (Ctrl+C). Trwa bezpieczne zamykanie...")
+        stop_event.set()
+        while not url_queue.empty():
+            try: url_queue.get_nowait(); url_queue.task_done()
+            except queue.Empty: break
+            
+    if not stop_event.is_set():
+        url_queue.join()
+    else:
+        # Czekamy krótką chwilę, by wątki url_queue zdążyły zobaczyć stop_event
+        time.sleep(1)
+
+    print("\n[*] Zapisywanie bazy danych, proszę czekać...")
+    db_queue.put(None)
+    db_thread.join()
+
+    # AUDYT WIELOJĘZYCZNOŚCI
+    cursor.execute('SELECT sku, lang, full_json FROM structured_data JOIN pages ON structured_data.page_id = pages.id WHERE sku IS NOT NULL AND sku != "None"')
+    sku_map = {}
+    for sku, lang, fjson in cursor.fetchall():
+        if sku not in sku_map: sku_map[sku] = {}
+        data = json.loads(fjson)
+        sku_map[sku][lang] = {'name': data.get('name', ''), 'description': data.get('description', '')}
+    for sku, langs in sku_map.items():
+        lang_list = list(langs.keys())
+        if len(lang_list) > 1:
+            for i in range(len(lang_list)):
+                for j in range(i + 1, len(lang_list)):
+                    l1, l2 = lang_list[i], lang_list[j]
+                    if langs[l1]['name'] == langs[l2]['name']:
+                        cursor.execute('INSERT INTO translation_audit (sku, field, lang1, lang2, content) VALUES (?, ?, ?, ?, ?)', (sku, 'name', l1, l2, langs[l1]['name']))
+                        tg_notifier.add_translation_issue(sku, l1, l2, 'name')
+    conn.commit(); conn.close()
+
+    # TEST WYSZUKIWARKI
+    search_count = -1
+    try:
+        print("\n[*] Przeprowadzanie testu wyszukiwarki (szukana fraza: karuzela)...")
+        search_url = "https://fluo.dog/szukaj?controller=search&s=karuzela"
+        resp_search = session.get(search_url, timeout=15)
+        if resp_search.status_code == 200:
+            soup_search = BeautifulSoup(resp_search.text, 'lxml')
+            products = soup_search.find_all('article', class_='product-miniature')
+            search_count = len(products)
+            if search_count == 0:
+                tg_notifier.add_critical(search_url, "TEST WYSZUKIWARKI: Brak wyników (0) dla 'karuzela'!")
+                print("[!] Test wyszukiwarki NIEPOWODZENIE: 0 wyników.")
+            else:
+                print(f"[*] Test wyszukiwarki OK: znaleziono {search_count} produktów.")
+        else:
+            tg_notifier.add_critical(search_url, f"TEST WYSZUKIWARKI: Błąd HTTP {resp_search.status_code}")
+            print(f"[!] Test wyszukiwarki BŁĄD HTTP: {resp_search.status_code}")
+    except Exception as e:
+        tg_notifier.add_critical("https://fluo.dog/szukaj?controller=search&s=karuzela", f"TEST WYSZUKIWARKI: Błąd połączenia")
+        print(f"[!] Test wyszukiwarki BŁĄD: {e}")
+
+    tg_notifier.send_final_report(start_url, crawled_count, error_count, db_file, search_results=search_count)
+
+if __name__ == "__main__":
+    def load_config():
+        try:
+            # Wymuszamy utf-8, żeby uniknąć problemów z kodowaniem Windows
+            with open("config.json", "r", encoding="utf-8") as f:
+                raw_config = json.load(f)
+                # Czyścimy klucze ze spacji na wszelki wypadek
+                return {k.strip(): v for k, v in raw_config.items()}
+        except Exception as e:
+            print(f"[!] Błąd wczytywania config.json: {e}")
+            return {}
+
+    parser = argparse.ArgumentParser(description="Crawler SEO - Podgląd błędów i audyt.")
+    parser.add_argument("--url", default="https://fluo.dog", help="Startowy URL")
+    parser.add_argument("--threads", type=int, default=10, help="Liczba wątków")
+    args = parser.parse_args()
+    
+    # Upewnij się, że katalog scans istnieje
+    if not os.path.exists("scans"):
+        os.makedirs("scans")
+    
+    config = load_config()
+    
+    # Debug: wypiszmy jakie klucze faktycznie widzi Python
+    available_keys = ", ".join(config.keys())
+    print(f"[*] Wczytane klucze z config: {available_keys}")
+    
+    token = config.get("telegram_token")
+    id_info = config.get("telegram_chat_id_info")
+    id_err = config.get("telegram_chat_id_errors")
+    
+    print(f"[*] Konfiguracja: INFO_ID={id_info}, ERRORS_ID={id_err}")
+    
+    notifier = TelegramNotifier(token, id_info, id_err)
+    if notifier.enabled:
+        print("[*] Telegram powiadomienia: WŁĄCZONE")
+        notifier.send(f"🚀 <b>Rozpoczynam audyt SEO</b> dla: {html.escape(args.url)}", target='info')
+    else:
+        print("[!] Telegram powiadomienia: WYŁĄCZONE (sprawdź czy klucze w config.json są poprawne)")
+        
+    db_name = f"scans/crawler_v18_{datetime.now().strftime('%Y%m%d_%H%M%S')}.db"
+    crawler(args.url, db_name, args.threads, notifier)
@@ -0,0 +1,575 @@
+import sqlite3
+import json
+import glob
+import os
+from fastapi import FastAPI, HTTPException, Query
+from fastapi.responses import HTMLResponse, StreamingResponse
+from typing import List, Optional
+import io
+import csv
+
+app = FastAPI(title="Crawler SEO Dashboard API")
+
+def get_db_conn(db_name: str):
+    # Sprawdź czy db_name zawiera już katalog, jeśli nie - dodaj scans/
+    if not db_name.startswith("scans/"):
+        db_path = os.path.join("scans", db_name)
+    else:
+        db_path = db_name
+
+    if not os.path.exists(db_path):
+        raise HTTPException(status_code=404, detail=f"Baza danych nie istnieje: {db_path}")
+    conn = sqlite3.connect(db_path)
+    conn.row_factory = sqlite3.Row
+    return conn
+
+@app.get("/", response_class=HTMLResponse)
+def get_dashboard():
+    return """
+<!DOCTYPE html>
+<html lang="pl">
+<head>
+    <meta charset="UTF-8">
+    <meta name="viewport" content="width=device-width, initial-scale=1.0">
+    <title>Crawler SEO Dashboard</title>
+    <script src="https://unpkg.com/react@18/umd/react.production.min.js"></script>
+    <script src="https://unpkg.com/react-dom@18/umd/react-dom.production.min.js"></script>
+    <script src="https://unpkg.com/@babel/standalone/babel.min.js"></script>
+    <script src="https://cdn.tailwindcss.com"></script>
+    <script src="https://unpkg.com/lucide@0.321.0/dist/umd/lucide.min.js"></script>
+    <link href="https://fonts.googleapis.com/css2?family=Inter:wght@300;400;600;700&display=swap" rel="stylesheet">
+    <style>
+        body { font-family: 'Inter', sans-serif; background: #0f172a; color: #f1f5f9; margin: 0; }
+        .glass { background: rgba(30, 41, 59, 0.7); backdrop-filter: blur(12px); border: 1px solid rgba(255,255,255,0.1); }
+        ::-webkit-scrollbar { width: 8px; }
+        ::-webkit-scrollbar-track { background: #0f172a; }
+        ::-webkit-scrollbar-thumb { background: #334155; border-radius: 4px; }
+        .animate-fade-in { animation: fadeIn 0.4s ease-out; }
+        @keyframes fadeIn { from { opacity: 0; transform: translateY(10px); } to { opacity: 1; transform: translateY(0); } }
+    </style>
+</head>
+<body>
+    <div id="root"></div>
+    <script type="text/babel">
+        const { useState, useEffect } = React;
+
+        const SCHEMA_DEFS = {
+            'Product': [
+                { field: 'name', label: 'Nazwa produktu', status: 'req' },
+                { field: 'image', label: 'Zdjęcie', status: 'req' },
+                { field: 'offers.price', label: 'Cena', status: 'req' },
+                { field: 'offers.priceCurrency', label: 'Waluta', status: 'req' },
+                { field: 'description', label: 'Opis', status: 'opt' },
+                { field: 'sku', label: 'SKU', status: 'warn' },
+                { field: 'brand.name', label: 'Marka', status: 'warn' },
+                { field: 'aggregateRating.ratingValue', label: 'Ocena', status: 'opt' },
+                { field: 'offers.availability', label: 'Dostępność', status: 'warn' }
+            ],
+            'BreadcrumbList': [
+                { field: 'itemListElement', label: 'Elementy listy', status: 'req' }
+            ]
+        };
+
+        function App() {
+            const [dbs, setDbs] = useState([]);
+            const [selectedDb, setSelectedDb] = useState('');
+            const [stats, setStats] = useState(null);
+            const [pages, setPages] = useState([]);
+            const [loading, setLoading] = useState(false);
+            const [filter, setFilter] = useState('all');
+            const [selectedPage, setSelectedPage] = useState(null);
+            const [analysisData, setAnalysisData] = useState({ schemas: [], images: [] });
+            const [activeTab, setActiveTab] = useState('schema');
+            const [mainTab, setMainTab] = useState('pages'); 
+            const [translations, setTranslations] = useState({ langs: [], data: [] });
+            const [sortConfig, setSortConfig] = useState({ key: 'id', direction: 'desc' });
+
+            useEffect(() => {
+                fetch('/api/list-dbs').then(res => res.json()).then(data => {
+                    setDbs(data);
+                    if (data.length > 0) setSelectedDb(data[0]);
+                });
+            }, []);
+
+            useEffect(() => {
+                if (selectedDb) {
+                    setLoading(true);
+                    const endpoints = mainTab === 'pages' 
+                        ? [fetch(`/api/stats?db=${selectedDb}`), fetch(`/api/pages?db=${selectedDb}&status_type=${filter}`)]
+                        : [fetch(`/api/stats?db=${selectedDb}`), fetch(`/api/translations?db=${selectedDb}`)];
+                    
+                    Promise.all(endpoints).then(async ([resStats, resData]) => {
+                        const s = await resStats.json();
+                        const d = await resData.json();
+                        setStats(s);
+                        if (mainTab === 'pages') setPages(d);
+                        else setTranslations(d);
+                        setLoading(false);
+                    }).catch(() => setLoading(false));
+                }
+            }, [selectedDb, filter, mainTab]);
+
+            useEffect(() => {
+                if (window.lucide) window.lucide.createIcons();
+            }, [pages, stats, selectedPage, sortConfig, loading, activeTab, mainTab, translations]);
+
+            const requestSort = (key) => {
+                let direction = 'asc';
+                if (sortConfig.key === key && sortConfig.direction === 'asc') direction = 'desc';
+                setSortConfig({ key, direction });
+            };
+
+            const getSortedPages = () => {
+                if (!pages) return [];
+                const sortable = [...pages];
+                sortable.sort((a, b) => {
+                    let valA = a[sortConfig.key] ?? 0;
+                    let valB = b[sortConfig.key] ?? 0;
+                    if (sortConfig.key === 'schema_status') {
+                        valA = ((a.schema_critical || 0) * 100) + (a.schema_warnings || 0);
+                        valB = ((b.schema_critical || 0) * 100) + (b.schema_warnings || 0);
+                    }
+                    if (valA < valB) return sortConfig.direction === 'asc' ? -1 : 1;
+                    if (valA > valB) return sortConfig.direction === 'asc' ? 1 : -1;
+                    return 0;
+                });
+                return sortable;
+            };
+
+            const viewAnalysis = (page) => {
+                fetch(`/api/analysis/${page.id}?db=${selectedDb}`).then(res => res.json()).then(data => {
+                    setAnalysisData(data);
+                    setSelectedPage(page);
+                    setActiveTab('schema');
+                });
+            };
+
+            const getVal = (obj, path) => path.split('.').reduce((acc, part) => acc && acc[part], obj);
+            const sortedPages = getSortedPages();
+
+            return (
+                <div className="min-h-screen p-6 max-w-7xl mx-auto animate-fade-in">
+                    <header className="flex flex-col md:flex-row justify-between items-start md:items-center mb-10 gap-4">
+                        <div>
+                            <h1 className="text-3xl font-extrabold bg-gradient-to-r from-blue-400 to-emerald-400 bg-clip-text text-transparent uppercase tracking-tight">
+                                SEO Audit Dashboard
+                            </h1>
+                            <p className="text-slate-500 text-sm mt-1 font-medium">Monitoring techniczny i audyt wielojęzyczności</p>
+                        </div>
+                        <div className="flex items-center space-x-3 bg-slate-800/50 p-1.5 rounded-2xl border border-slate-700">
+                            <span className="text-[10px] text-slate-500 font-black px-3 uppercase tracking-widest">Baza danych</span>
+                            <select value={selectedDb} onChange={(e) => setSelectedDb(e.target.value)} className="bg-transparent text-slate-200 p-2 pr-8 rounded-xl outline-none text-xs font-bold cursor-pointer">
+                                {dbs.map(db => <option key={db} value={db} className="bg-slate-900">{db}</option>)}
+                            </select>
+                        </div>
+                    </header>
+
+                    {stats && (
+                        <div className="grid grid-cols-1 sm:grid-cols-2 lg:grid-cols-4 gap-4 mb-10">
+                            {[
+                                { t: 'Strony', v: stats.total_pages, i: 'layers', c: 'blue' },
+                                { t: 'Błędy HTTP', v: stats.errors, i: 'alert-circle', c: 'red' },
+                                { t: 'Obiekty Schema', v: stats.schema_objects, i: 'code', c: 'emerald' },
+                                { t: 'Błędy Tłumaczeń', v: stats.translation_errors || 0, i: 'globe', c: 'amber' }
+                            ].map((s, idx) => (
+                                <div key={idx} className="glass p-5 rounded-2xl border border-white/5 shadow-lg flex items-center space-x-4">
+                                    <div className={`p-2.5 rounded-xl bg-${s.c}-500/20 text-${s.c}-400`}><i data-lucide={s.i} className="w-5 h-5"></i></div>
+                                    <div><p className="text-[10px] text-slate-500 font-bold uppercase tracking-wider">{s.t}</p><p className="text-xl font-bold text-slate-100">{s.v}</p></div>
+                                </div>
+                            ))}
+                        </div>
+                    )}
+
+                    <div className="flex bg-slate-800/30 rounded-2xl p-1 mb-8 w-fit border border-white/5">
+                        <button onClick={() => setMainTab('pages')} className={`px-6 py-2 rounded-xl text-xs font-bold transition-all ${mainTab==='pages' ? 'bg-blue-600 text-white shadow-lg' : 'text-slate-500 hover:text-slate-300'}`}>AUDYT TECHNICZNY</button>
+                        <button onClick={() => setMainTab('translations')} className={`px-6 py-2 rounded-xl text-xs font-bold transition-all ${mainTab==='translations' ? 'bg-blue-600 text-white shadow-lg' : 'text-slate-500 hover:text-slate-300'}`}>AUDYT TŁUMACZEŃ</button>
+                    </div>
+
+                    {mainTab === 'pages' ? (
+                        <div>
+                            <div className="flex flex-wrap items-center justify-between gap-4 mb-6">
+                                <div className="flex flex-wrap gap-2">
+                                    {[{id:'all',l:'Wszystkie'},{id:'error',l:'Błędy'},{id:'slow',l:'Wolne'},{id:'images',l:'Obrazy'}].map(f => (
+                                        <button key={f.id} onClick={() => setFilter(f.id)} className={`px-5 py-1.5 rounded-xl text-xs font-bold transition-all ${filter===f.id ? 'bg-blue-600 text-white shadow-lg' : 'glass text-slate-500 hover:text-slate-300'}`}>
+                                            {f.l.toUpperCase()}
+                                        </button>
+                                    ))}
+                                </div>
+                                <a href={`/api/export-csv?db=${selectedDb}&status_type=${filter}`} download className="bg-emerald-600/20 hover:bg-emerald-600 text-emerald-400 hover:text-white px-5 py-1.5 rounded-xl text-xs font-bold transition-all flex items-center space-x-2 border border-emerald-600/30">
+                                    <i data-lucide="download" className="w-4 h-4"></i><span>EKSPORTUJ CSV</span>
+                                </a>
+                            </div>
+
+                            <div className="glass rounded-3xl border border-white/5 shadow-2xl">
+                                <div className="overflow-auto max-h-[75vh]">
+                                    <table className="w-full text-left border-collapse">
+                                        <thead className="bg-slate-900 sticky top-0 z-10 shadow-md">
+                                            <tr className="text-[10px] font-black text-slate-400 uppercase tracking-[0.15em]">
+                                                {[{k:'status',l:'Status'},{k:'lang',l:'Język'},{k:'url',l:'URL'},{k:'total_time',l:'Czas'},{k:'schema_status',l:'Schema'}].map(col => (
+                                                    <th key={col.k} onClick={()=>requestSort(col.k)} className="p-4 cursor-pointer hover:bg-white/5 transition">
+                                                        <div className="flex items-center space-x-1"><span>{col.l}</span>{sortConfig.key === col.k && <i data-lucide={sortConfig.direction==='asc'?'chevron-up':'chevron-down'} className="w-3 h-3 text-blue-400"></i>}</div>
+                                                    </th>
+                                                ))}
+                                                <th className="p-4 text-right">Akcje</th>
+                                            </tr>
+                                        </thead>
+                                        <tbody className="text-sm">
+                                            {loading ? (
+                                                <tr><td colSpan="6" className="p-20 text-center text-slate-600 font-bold animate-pulse uppercase tracking-[0.2em]">Pobieranie danych...</td></tr>
+                                            ) : sortedPages.map(page => (
+                                                <tr key={page.id} className="border-t border-white/5 hover:bg-white/[0.02] transition-colors group">
+                                                    <td className="p-4"><span className={`px-2 py-0.5 rounded text-[10px] font-black ${page.status===200 ? 'bg-emerald-500/10 text-emerald-400' : 'bg-red-500/10 text-red-400'}`}>{page.status || 'ERROR'}</span></td>
+                                                    <td className="p-4 font-black text-[10px] text-slate-500 uppercase">{page.lang || '??'}</td>
+                                                    <td className="p-4 max-w-sm"><div className="truncate font-medium"><a href={page.url} target="_blank" rel="noopener noreferrer" className="text-blue-400 hover:text-blue-300 transition-colors underline decoration-blue-400/30 hover:decoration-blue-400 underline-offset-4">{page.url}</a></div><div className="text-[10px] text-slate-500 mt-0.5 truncate italic">Źródło: {page.source_url ? <a href={page.source_url} target="_blank" rel="noopener noreferrer" className="hover:text-slate-300 transition-colors">{page.source_url}</a> : 'Bezpośrednie'}</div></td>
+                                                    <td className="p-4 text-slate-400 tabular-nums">{page.total_time?.toFixed(3)}s</td>
+                                                    <td className="p-4">
+                                                        {page.schema_critical > 0 ? <span className="text-red-500 text-[10px] font-black uppercase">Krytyczny</span> : 
+                                                         page.schema_warnings > 0 ? <span className="text-amber-500 text-[10px] font-black uppercase">Ostrzeżenia</span> : <span className="text-emerald-500 text-[10px] font-black uppercase">OK</span>}
+                                                    </td>
+                                                    <td className="p-4 text-right"><button onClick={() => viewAnalysis(page)} className="bg-blue-500/10 hover:bg-blue-600 text-blue-400 hover:text-white px-3 py-1.5 rounded-lg text-[10px] font-black transition-all uppercase">Analiza</button></td>
+                                                </tr>
+                                            ))}
+                                        </tbody>
+                                    </table>
+                                </div>
+                            </div>
+                        </div>
+                    ) : (
+                        <div className="glass rounded-3xl border border-white/5 shadow-2xl animate-fade-in">
+                            <div className="overflow-auto max-h-[75vh]">
+                                <table className="w-full text-left border-collapse">
+                                    <thead className="bg-slate-900 text-[10px] font-black text-slate-400 uppercase tracking-widest sticky top-0 z-10 shadow-md">
+                                        <tr>
+                                            <th className="p-5 w-40">SKU</th>
+                                            <th className="p-5 w-40">POLE</th>
+                                            {translations?.langs?.map(l => <th key={l} className="p-5 text-center">{l.toUpperCase()}</th>)}
+                                        </tr>
+                                    </thead>
+                                    <tbody className="text-sm">
+                                        {loading ? (
+                                            <tr><td colSpan={2 + (translations?.langs?.length || 0)} className="p-20 text-center text-slate-600 font-bold animate-pulse uppercase tracking-[0.2em]">Analiza tłumaczeń...</td></tr>
+                                        ) : translations?.data?.length > 0 ? translations.data.map((t, idx) => {
+                                            const isFirstOfSku = idx === 0 || translations.data[idx-1].sku !== t.sku;
+                                            return (
+                                                <tr key={idx} className={`hover:bg-white/[0.02] transition-colors ${isFirstOfSku ? 'border-t-2 border-t-white/10' : 'border-t border-white/5 border-dashed'}`}>
+                                                    <td className="p-5 font-bold tabular-nums">
+                                                        {isFirstOfSku ? <a href={t.url} target="_blank" rel="noopener noreferrer" className="text-blue-400 hover:text-blue-300 transition-colors underline decoration-blue-400/30 hover:decoration-blue-400 underline-offset-4">{t.sku}</a> : null}
+                                                    </td>
+                                                    <td className="p-5 uppercase text-[10px] font-black text-slate-400">{t.field}</td>
+                                                    {translations.langs.map(l => (
+                                                        <td key={l} className="p-5 text-center">
+                                                            {t[l] === 'V' ? <i data-lucide="check-circle" className="w-4 h-4 text-emerald-500/70 mx-auto"></i> : <i data-lucide="x-circle" className="w-5 h-5 text-red-500 mx-auto drop-shadow-md"></i>}
+                                                        </td>
+                                                    ))}
+                                                </tr>
+                                            );
+                                        }) : (
+                                            <tr><td colSpan={10} className="p-20 text-center text-slate-600 font-bold uppercase tracking-widest">Brak danych o tłumaczeniach.</td></tr>
+                                        )}
+                                    </tbody>
+                                </table>
+                            </div>
+                        </div>
+                    )}
+
+                    {selectedPage && (
+                        <div className="fixed inset-0 bg-slate-950/90 backdrop-blur-md flex items-center justify-center p-4 z-50 animate-fade-in">
+                            <div className="glass w-full max-w-6xl max-h-[90vh] overflow-hidden flex flex-col rounded-[2.5rem] border border-white/10 shadow-2xl">
+                                <div className="p-6 border-b border-white/5 flex justify-between items-center bg-slate-900/50">
+                                    <div><p className="text-blue-400 text-[10px] font-black uppercase tracking-widest mb-1">Pełny audyt strony</p><h2 className="text-lg font-bold text-slate-100 truncate max-w-2xl">{selectedPage.url}</h2></div>
+                                    <button onClick={() => setSelectedPage(null)} className="p-2 hover:bg-white/10 rounded-xl transition-colors"><i data-lucide="x"></i></button>
+                                </div>
+                                <div className="flex bg-slate-900/50 border-b border-white/5">
+                                    <button onClick={()=>setActiveTab('schema')} className={`px-8 py-3 text-[10px] font-black uppercase tracking-widest transition-all ${activeTab==='schema'?'text-blue-400 border-b-2 border-blue-400 bg-blue-400/5':'text-slate-500 hover:text-slate-300'}`}>Schema.org</button>
+                                    <button onClick={()=>setActiveTab('metadata')} className={`px-8 py-3 text-[10px] font-black uppercase tracking-widest transition-all ${activeTab==='metadata'?'text-purple-400 border-b-2 border-purple-400 bg-purple-400/5':'text-slate-500 hover:text-slate-300'}`}>Metadane SEO</button>
+                                    <button onClick={()=>setActiveTab('images')} className={`px-8 py-3 text-[10px] font-black uppercase tracking-widest transition-all ${activeTab==='images'?'text-emerald-400 border-b-2 border-emerald-400 bg-emerald-400/5':'text-slate-500 hover:text-slate-300'}`}>Audyt Grafiki</button>
+                                </div>
+                                <div className="p-6 overflow-y-auto">
+                                    {activeTab === 'schema' ? (
+                                        <div>
+                                            <div className="mb-10">
+                                                <h3 className="text-slate-500 text-[10px] font-black mb-4 uppercase tracking-[0.2em] border-b border-white/5 pb-2">I. Audyt pól Schema.org</h3>
+                                                {analysisData.schemas.length > 0 ? analysisData.schemas.map((s, i) => {
+                                                    const fields = SCHEMA_DEFS[s.type] || [];
+                                                    return (
+                                                        <div key={i} className="mb-6 glass rounded-2xl overflow-hidden border border-white/5">
+                                                            <div className="px-4 py-2 bg-white/5 flex items-center space-x-2 text-[10px] font-black uppercase text-slate-400"><i data-lucide="file-json" className="w-3 h-3"></i><span>{s.type}</span></div>
+                                                            <table className="w-full text-[10px] border-collapse">
+                                                                <tbody>
+                                                                    {fields.map((f, fi) => {
+                                                                        const val = getVal(s.data, f.field);
+                                                                        const ex = val !== undefined && val !== null && val !== '';
+                                                                        return (
+                                                                            <tr key={fi} className="border-t border-white/5">
+                                                                                <td className="p-2.5 text-slate-400 w-1/3">{f.label}</td>
+                                                                                <td className="p-2.5 text-slate-200 truncate max-w-[200px] font-medium">{ex ? (typeof val==='object'?'Obiekt':String(val)):'—'}</td>
+                                                                                <td className="p-2.5 text-right font-black uppercase">{ex ? <span className="text-emerald-500">OK</span> : f.status==='req' ? <span className="text-red-500">Wymagane</span> : f.status==='warn' ? <span className="text-amber-500">Zalecane</span> : <span className="text-slate-600">Opcjonalne</span>}</td>
+                                                                            </tr>
+                                                                        );
+                                                                    })}
+                                                                </tbody>
+                                                            </table>
+                                                        </div>
+                                                    );
+                                                }) : <p className="text-center py-10 text-slate-600 font-bold uppercase tracking-widest text-[10px]">Brak danych strukturalnych</p>}
+                                            </div>
+                                            <div>
+                                                <h3 className="text-slate-500 text-[10px] font-black mb-4 uppercase tracking-[0.2em] border-b border-white/5 pb-2">II. Kod JSON-LD</h3>
+                                                {analysisData.schemas.map((s, i) => (
+                                                    <pre key={i} className="bg-slate-950/80 p-5 rounded-xl overflow-x-auto text-[11px] text-blue-200/70 border border-white/5 font-mono mb-4 last:mb-0">{JSON.stringify(s.data, null, 2)}</pre>
+                                                ))}
+                                            </div>
+                                        </div>
+                                    ) : activeTab === 'metadata' ? (
+                                        <div>
+                                            <h3 className="text-slate-500 text-[10px] font-black mb-4 uppercase tracking-[0.2em] border-b border-white/5 pb-2">Metadane SEO</h3>
+                                            <div className="glass rounded-2xl overflow-hidden border border-white/5 p-5 text-sm text-slate-300">
+                                                <div className="mb-4">
+                                                    <span className="block text-[10px] font-black uppercase text-slate-500 mb-1">Tag Title</span>
+                                                    <div className="font-bold text-slate-100 bg-slate-900/50 p-3 rounded-xl border border-white/5">{selectedPage.title || 'Brak tagu <title>'}</div>
+                                                </div>
+                                                <div className="mb-4">
+                                                    <span className="block text-[10px] font-black uppercase text-slate-500 mb-1">Meta Description</span>
+                                                    <div className="font-medium text-slate-300 bg-slate-900/50 p-3 rounded-xl border border-white/5">{selectedPage.meta_desc || 'Brak description'}</div>
+                                                </div>
+                                                <div>
+                                                    <span className="block text-[10px] font-black uppercase text-slate-500 mb-1">Link Canonical</span>
+                                                    <div className="font-mono text-xs text-blue-400 bg-slate-900/50 p-3 rounded-xl border border-white/5 truncate">{selectedPage.canonical || 'Brak canonical'}</div>
+                                                    {selectedPage.canonical && selectedPage.canonical !== selectedPage.url && <div className="mt-2 text-[10px] text-amber-500 font-bold uppercase"><i data-lucide="alert-triangle" className="w-3 h-3 inline mr-1"></i>Canonical wskazuje na inną stronę!</div>}
+                                                    {selectedPage.canonical && selectedPage.canonical === selectedPage.url && <div className="mt-2 text-[10px] text-emerald-500 font-bold uppercase"><i data-lucide="check-circle" className="w-3 h-3 inline mr-1"></i>Samoodwołujący (Zgodny z URL)</div>}
+                                                </div>
+                                            </div>
+                                        </div>
+                                    ) : (
+                                        <div>
+                                            <h3 className="text-slate-500 text-[10px] font-black mb-4 uppercase tracking-[0.2em] border-b border-white/5 pb-2">Audyt optymalizacji obrazów</h3>
+                                            <div className="glass rounded-2xl overflow-hidden border border-white/5">
+                                                <table className="w-full text-left border-collapse">
+                                                    <thead className="bg-white/5 text-[9px] font-black text-slate-500 uppercase tracking-widest">
+                                                        <tr><th className="p-3">Podgląd</th><th className="p-3">Atrybut ALT</th><th className="p-3">Format Modern</th><th className="p-3 text-right">Status</th></tr>
+                                                    </thead>
+                                                    <tbody className="text-[10px]">
+                                                        {analysisData.images.length > 0 ? analysisData.images.map((img, i) => (
+                                                            <tr key={i} className="border-t border-white/5 hover:bg-white/[0.02]">
+                                                                <td className="p-3"><img src={img.img_url} className="w-10 h-10 object-cover rounded bg-slate-800" onError={(e)=>e.target.src='https://via.placeholder.com/40'} /></td>
+                                                                <td className="p-3"><span className={img.alt==='[BRAK]'?'text-red-400 font-bold':'text-slate-300'}>{img.alt}</span></td>
+                                                                <td className="p-3">{img.is_modern ? <span className="text-emerald-400 font-bold">TAK (Bezpośrednio)</span> : img.has_modern_source ? <span className="text-blue-400 font-bold">TAK (Picture/Srcset)</span> : <span className="text-amber-500 font-bold">NIE (Stary format)</span>}</td>
+                                                                <td className="p-3 text-right">{img.alt!=='[BRAK]' && (img.is_modern || img.has_modern_source) ? <span className="text-emerald-500 font-black">ZOPTYMALIZOWANO</span> : <span className="text-amber-500 font-black text-[9px]">DO POPRAWY</span>}</td>
+                                                            </tr>
+                                                        )) : <tr><td colSpan="4" className="p-10 text-center text-slate-600 font-bold uppercase">Nie znaleziono obrazów</td></tr>}
+                                                    </tbody>
+                                                </table>
+                                            </div>
+                                        </div>
+                                    )}
+                                </div>
+                            </div>
+                        </div>
+                    )}
+                </div>
+            );
+        }
+
+        const root = ReactDOM.createRoot(document.getElementById('root'));
+        root.render(<App />);
+    </script>
+</body>
+</html>
+    """
+
+@app.get("/api/list-dbs")
+def list_dbs():
+    dbs = glob.glob("scans/*.db")
+    # Zwracamy same nazwy plików dla ładniejszego widoku w select
+    return sorted([os.path.basename(db) for db in dbs], reverse=True)
+
+@app.get("/api/stats")
+def get_stats(db: str):
+    conn = get_db_conn(db)
+    cursor = conn.cursor()
+    stats = {"total_pages": 0, "errors": 0, "avg_time": 0, "schema_objects": 0, "img_issues": 0, "translation_errors": 0}
+    try:
+        stats["total_pages"] = cursor.execute("SELECT COUNT(*) FROM pages").fetchone()[0]
+        stats["errors"] = cursor.execute("SELECT COUNT(*) FROM pages WHERE status != 200 AND status != 0").fetchone()[0]
+        stats["avg_time"] = cursor.execute("SELECT AVG(total_time) FROM pages WHERE total_time > 0").fetchone()[0] or 0
+        stats["schema_objects"] = cursor.execute("SELECT COUNT(*) FROM structured_data").fetchone()[0]
+    except: pass
+    try:
+        img_stats = cursor.execute("SELECT SUM(images_no_alt), SUM(images_no_webp) FROM pages").fetchone()
+        stats["img_issues"] = (img_stats[0] or 0) + (img_stats[1] or 0)
+    except: pass
+    try:
+        stats["translation_errors"] = cursor.execute("SELECT COUNT(*) FROM translation_audit").fetchone()[0]
+    except: pass
+    conn.close()
+    return stats
+
+@app.get("/api/pages")
+def get_pages(db: str, status_type: Optional[str] = "all"):
+    conn = get_db_conn(db)
+    cursor = conn.cursor()
+    try:
+        query = "SELECT * FROM pages"
+        try:
+            cursor.execute("SELECT images_no_alt FROM pages LIMIT 1")
+            has_img_cols = True
+        except: has_img_cols = False
+
+        if status_type == "error": query += " WHERE status != 200 AND status != 0"
+        elif status_type == "noindex": query += " WHERE index_status LIKE 'Noindex%'"
+        elif status_type == "slow": query += " WHERE total_time > 1.5"
+        elif status_type == "images" and has_img_cols: query += " WHERE images_no_alt > 0 OR images_no_webp > 0"
+        
+        query += " ORDER BY id DESC LIMIT 1000"
+        pages = cursor.execute(query).fetchall()
+        return [dict(p) for p in pages]
+    except: return []
+    finally: conn.close()
+
+@app.get("/api/translations")
+def get_translations(db: str):
+    conn = get_db_conn(db)
+    cursor = conn.cursor()
+    try:
+        try:
+            cursor.execute("SELECT title, meta_desc FROM pages LIMIT 1")
+            has_meta = True
+        except: has_meta = False
+
+        if has_meta:
+            query = """
+                SELECT s.sku, p.lang, s.full_json, MIN(p.url) as url, MAX(p.title) as title, MAX(p.meta_desc) as meta_desc
+                FROM structured_data s 
+                JOIN pages p ON s.page_id = p.id 
+                WHERE s.sku IS NOT NULL AND s.sku != 'None' AND s.sku != '' AND s.schema_type LIKE '%Product%'
+                GROUP BY s.sku, p.lang
+            """
+        else:
+            query = """
+                SELECT s.sku, p.lang, s.full_json, MIN(p.url) as url, '' as title, '' as meta_desc
+                FROM structured_data s 
+                JOIN pages p ON s.page_id = p.id 
+                WHERE s.sku IS NOT NULL AND s.sku != 'None' AND s.sku != '' AND s.schema_type LIKE '%Product%'
+                GROUP BY s.sku, p.lang
+            """
+        rows = cursor.execute(query).fetchall()
+        
+        sku_map = {}
+        langs_set = set()
+        
+        for r in rows:
+            sku = str(r['sku']).strip()
+            lang = str(r['lang']).lower().strip()
+            if '-' in lang: lang = lang.split('-')[0]
+            langs_set.add(lang)
+            
+            try: data = json.loads(r['full_json'])
+            except: continue
+            
+            obj = {}
+            if isinstance(data, list): obj = next((item for item in data if 'Product' in str(item.get('@type', ''))), {})
+            else: obj = data if 'Product' in str(data.get('@type', '')) else {}
+                
+            name = obj.get('name', '').strip()
+            desc = obj.get('description', '').strip()
+            title = (r['title'] or '').strip()
+            meta_desc = (r['meta_desc'] or '').strip()
+            
+            slug = ''
+            if r['url']:
+                parts = r['url'].rstrip('/').split('/')
+                if parts: slug = parts[-1].split('?')[0].split('#')[0]
+            
+            if sku not in sku_map: sku_map[sku] = {'langs': {}, 'url': r['url']}
+            sku_map[sku]['langs'][lang] = {
+                'nazwa': name, 'opis': desc, 
+                'nazwa seo': title, 'opis seo': meta_desc, 'slug': slug
+            }
+
+        all_langs = sorted(list(langs_set))
+        if 'pl' in all_langs: all_langs.remove('pl')
+        
+        results = []
+        fields = ['nazwa', 'opis', 'nazwa seo', 'opis seo', 'slug']
+        
+        for sku, info in sku_map.items():
+            if 'pl' not in info['langs']: continue
+            
+            pl_data = info['langs']['pl']
+            sku_has_errors = False
+            sku_rows = []
+            
+            for field in fields:
+                pl_val = pl_data.get(field, '')
+                if not pl_val: continue
+                
+                row = {'sku': sku, 'field': field, 'url': info['url']}
+                for lang in all_langs:
+                    l_val = info['langs'].get(lang, {}).get(field, '')
+                    if not l_val or l_val == pl_val:
+                        row[lang] = 'X'
+                        sku_has_errors = True
+                    else:
+                        row[lang] = 'V'
+                sku_rows.append(row)
+                
+            if sku_has_errors:
+                results.extend(sku_rows)
+            
+        return {"langs": all_langs, "data": results}
+    except Exception as e:
+        print(f"Error in translations: {e}")
+        return {"langs": [], "data": []}
+    finally: conn.close()
+
+@app.get("/api/analysis/{page_id}")
+def get_analysis(db: str, page_id: int):
+    conn = get_db_conn(db)
+    cursor = conn.cursor()
+    try:
+        schemas = cursor.execute("SELECT schema_type, full_json FROM structured_data WHERE page_id = ?", (page_id,)).fetchall()
+        try: images = cursor.execute("SELECT img_url, alt, is_modern, has_modern_source FROM images_audit WHERE page_id = ?", (page_id,)).fetchall()
+        except: images = []
+        schema_list = []
+        for s in schemas:
+            try: schema_list.append({"type": s["schema_type"], "data": json.loads(s["full_json"])})
+            except: schema_list.append({"type": s["schema_type"], "data": s["full_json"]})
+        return {"schemas": schema_list, "images": [dict(img) for img in images]}
+    finally:
+        conn.close()
+
+@app.get("/api/export-csv")
+def export_csv(db: str, status_type: Optional[str] = "all"):
+    conn = get_db_conn(db)
+    cursor = conn.cursor()
+    
+    try:
+        cursor.execute("SELECT images_no_alt FROM pages LIMIT 1")
+        has_img_cols = True
+    except: has_img_cols = False
+
+    query = "SELECT * FROM pages"
+    if status_type == "error": query += " WHERE status != 200 AND status != 0"
+    elif status_type == "noindex": query += " WHERE index_status LIKE 'Noindex%'"
+    elif status_type == "slow": query += " WHERE total_time > 1.5"
+    elif status_type == "images" and has_img_cols: query += " WHERE images_no_alt > 0 OR images_no_webp > 0"
+    query += " ORDER BY id DESC"
+    pages = cursor.execute(query).fetchall()
+    conn.close()
+    
+    output = io.StringIO()
+    writer = csv.writer(output, delimiter=';')
+    if pages:
+        keys = list(dict(pages[0]).keys())
+        writer.writerow([k.upper() for k in keys])
+        for p in pages:
+            writer.writerow([dict(p).get(k, '') for k in keys])
+    else:
+        writer.writerow(['BRAK DANYCH'])
+    output.seek(0)
+    filename = f"raport_seo_{status_type}_{db.replace('.db', '')}.csv"
+    return StreamingResponse(io.BytesIO(output.getvalue().encode('utf-8-sig')), media_type="text/csv", headers={"Content-Disposition": f"attachment; filename={filename}"})
+
+if __name__ == "__main__":
+    import uvicorn
+    uvicorn.run(app, host="127.0.0.1", port=8000)
@@ -0,0 +1,4 @@
+@echo off
+cd /d "e:\Lukasz\Projekty\Python\Crawler_XML"
+python crawler.py --url https://fluo.dog
+exit
@@ -0,0 +1,144 @@
+import sqlite3
+import json
+import glob
+import os
+import html
+import requests
+from urllib.parse import urlparse
+
+def load_config():
+    try:
+        with open("config.json", "r", encoding="utf-8") as f:
+            raw_config = json.load(f)
+            return {k.strip(): v for k, v in raw_config.items()}
+    except Exception as e:
+        print(f"[!] Błąd wczytywania config.json: {e}")
+        return {}
+
+def send_telegram(token, chat_id, message):
+    url = f"https://api.telegram.org/bot{token}/sendMessage"
+    try:
+        r = requests.post(url, json={"chat_id": chat_id, "text": message, "parse_mode": "HTML"}, timeout=15)
+        if r.status_code != 200:
+            print(f"[!] Błąd wysyłania (HTTP {r.status_code}): {r.text}")
+        else:
+            print("[*] Wiadomość wysłana pomyślnie.")
+    except Exception as e:
+        print(f"[!] Błąd połączenia z Telegramem: {e}")
+
+def main():
+    config = load_config()
+    token = config.get("telegram_token")
+    chat_id_errors = config.get("telegram_chat_id_errors") or config.get("telegram_chat_id_info")
+    
+    if not token or not chat_id_errors:
+        print("[!] Brak poprawnej konfiguracji Telegram (token lub chat_id_errors w config.json).")
+        return
+
+    # Znajdź najnowszą bazę danych crawla w podfolderze scans
+    dbs = glob.glob("scans/crawler_v*.db")
+    if not dbs:
+        print("[!] Nie znaleziono żadnej bazy danych crawler_v*.db w podfolderze scans.")
+        return
+    
+    dbs.sort(key=os.path.getmtime, reverse=True)
+    latest_db = dbs[0]
+    print(f"[*] Odczytuję dane z bazy: {latest_db}")
+
+    critical_errors = []
+    schema_errors = []
+    translation_issues = []
+    domain = "fluo.dog"
+
+    try:
+        conn = sqlite3.connect(latest_db)
+        cursor = conn.cursor()
+        
+        # Wyciągamy domenę z pierwszego rekordu
+        cursor.execute("SELECT url FROM pages LIMIT 1")
+        row = cursor.fetchone()
+        if row:
+            domain = html.escape(urlparse(row[0]).netloc)
+
+        # Błędy krytyczne (404, 500+, zablokowane)
+        cursor.execute("SELECT url, status, google_access FROM pages WHERE status = 404 OR status >= 500 OR google_access = 'Blocked' LIMIT 15")
+        for url, status, access in cursor.fetchall():
+            if access == 'Blocked':
+                err_type = "ROBOTS.TXT BLOCK"
+            elif status == 404:
+                err_type = "404"
+            else:
+                err_type = f"ERR {status}"
+            critical_errors.append((url, err_type))
+
+        # Błędy schema
+        cursor.execute("SELECT url, schema_critical FROM pages WHERE schema_critical > 0 LIMIT 10")
+        for url, count in cursor.fetchall():
+            schema_errors.append((url, count))
+
+        # Błędy tłumaczeń
+        try:
+            cursor.execute("SELECT sku, lang1, lang2, field FROM translation_audit LIMIT 10")
+            for sku, lang1, lang2, field in cursor.fetchall():
+                translation_issues.append(f"SKU {sku}: {field} identyczny w {lang1} i {lang2}")
+        except sqlite3.OperationalError:
+            pass # Jeśli z jakiegoś powodu nie ma jeszcze tej tabeli
+            
+        conn.close()
+    except Exception as e:
+        print(f"[!] Błąd odczytu bazy danych: {e}")
+        return
+
+    if not (critical_errors or schema_errors or translation_issues):
+        print("[*] Brak błędów do zaraportowania w ostatnim skanie.")
+        return
+
+    # Budowanie wiadomości z promptem
+    err_msg = f"🚨 <b>BŁĘDY: {domain} (Wysłane ręcznie)</b>\n\n"
+    
+    prompt_text = (
+        "Twoim zadaniem jest weryfikacja poniższych błędów na sklepie i przygotowanie planu naprawy. "
+        "Znasz strukturę plików, masz dostęp do bazy danych sklepu oraz wiesz jak działają wszystkie mechanizmy cache. "
+        "WAŻNE: Podane błędy zostały wykryte przez crawler, który analizował wyrenderowany kod HTML stron sklepu. "
+        "Crawler nie sprawdzał bazy danych – może być tak, że w bazie dane są w pełni poprawne, "
+        "a problem leży po stronie modułów (np. wstrzykujących dane strukturalne do źródła strony).\n"
+        "Oto zestawienie błędów do przeanalizowania:\n\n"
+    )
+
+    if critical_errors:
+        err_msg += f"❌ <b>KRYTYCZNE:</b>\n"
+        prompt_text += "BŁĘDY KRYTYCZNE:\n"
+        for url, err in critical_errors:
+            safe_url = html.escape(url)
+            err_msg += f"• {err}: {safe_url}\n"
+            prompt_text += f"- {err}: {url}\n"
+        err_msg += "\n"
+        prompt_text += "\n"
+        
+    if schema_errors:
+        err_msg += f"🛠 <b>SCHEMA.ORG:</b>\n"
+        prompt_text += "BŁĘDY SCHEMA.ORG:\n"
+        for url, count in schema_errors:
+            safe_url = html.escape(url)
+            err_msg += f"• Brak {count} pól: {safe_url}\n"
+            prompt_text += f"- Brak {count} pól: {url}\n"
+        err_msg += "\n"
+        prompt_text += "\n"
+        
+    if translation_issues:
+        err_msg += f"🌐 <b>TŁUMACZENIA:</b>\n"
+        prompt_text += "BŁĘDY TŁUMACZEŃ:\n"
+        for issue in translation_issues:
+            err_msg += f"• {html.escape(issue)}\n"
+            prompt_text += f"- {issue}\n"
+        err_msg += "\n"
+        prompt_text += "\n"
+        
+    err_msg += f"🤖 <b>Gotowy prompt dla Agenta AI:</b>\n"
+    err_msg += f"<pre><code class=\"language-text\">{html.escape(prompt_text.strip())}</code></pre>"
+
+    print("[*] Wysyłanie raportu na kanał Errors...")
+    send_telegram(token, chat_id_errors, err_msg)
+
+if __name__ == "__main__":
+    main()