Folge 7: KI-Souveränität für 2700 Dollar? | Beelink GTR9 Pro, Ollama & lokale KI im Selbstversuch

Staffel 1 • Folge 7 | ⏱ 39 min | 💾 57.3 MB

2700 Dollar für einen Mini-PC, der Cloud-Abos überflüssig machen soll. 96 GB Arbeitsspeicher, den CPU und GPU sich teilen. Kein Lüfter-Rauschen eines Server-Racks, keine monatliche Rechnung nach Kalifornien. Klingt gut — aber stimmt es auch?

Ehrliche Antwort: noch nicht ganz bekannt. Die Hardware ist noch unterwegs. Diese Folge ist kein fertiges Review, sondern ein Recherche-Tagebuch: was die Specs versprechen, wo Community-Berichte abweichen, und welche acht Einstellungen den Unterschied zwischen 20 GB nutzbarem VRAM und 96 GB machen.

Was du heute mitnimmst

Unified Memory erklärt CPU und GPU teilen sich denselben Speicherpool — kein Datentransfer über den langsamen PCIe-Bus. Was das für lokale KI-Workloads bedeutet und wo die Community-Berichte von den Papier-Specs abweichen.

96 GB VRAM vs. RTX 4090 Auf dem Papier schlägt der Beelink vier RTX 4090 in einem einzigen Gerät. Was das im Alltag bedeutet — und wo Cloud-Modelle wie Claude Opus noch vorne liegen. Ehrliche Einschätzung, keine Hochglanz-Werbung.

AMD vs. Nvidia — die Börsenperspektive Nvidia hält 80 % Marktanteil bei einer Bewertung von über vier Billionen Dollar. AMD legte 2025 rund 90 % an der Börse zu, gewann Oracle, Microsoft, Meta und eine OpenAI-Partnerschaft als Kunden. Was diese Verschiebung für die Zukunft lokaler KI-Hardware bedeutet — und warum unser kleiner Beelink ein Puzzleteil dieser Geschichte ist.

8 Life Hacks — alle Befehle in den Shownotes

Life Hack #1 — BIOS UMA Frame Buffer Size Die eine BIOS-Einstellung, die alle übersehen: UMA Frame Buffer Size auf „GPU Specified" stellen. Ohne sie meldet Ollama Speicher voll, obwohl 96 GB da wären. Steht nicht in der Anleitung — stehen in unseren Shownotes.

Life Hack #2 — GTT Size im Bootloader Ein einziger Eintrag in der GRUB-Konfiguration gibt der KI Zugriff auf den vollen Speicher. Einmal setzen, einmal neu starten — dann gehören dir alle 96 GB. Den exakten Befehl haben wir in die Shownotes kopiert.

Life Hack #3 — ROCm Kernel-Modul aktivieren Ohne diesen einen Terminal-Befehl sieht dein System zwar die Hardware — die KI denkt trotzdem, sie hätte einen Taschenrechner. Der Schnipsel steht ganz oben in den Shownotes.

Life Hack #4 — Cursor IDE lokal betreiben Cursor erwartet eine OpenAI-API. Ollama kann diese Schnittstelle lokal emulieren. Per Cloudflare Tunnel oder NGROK verbindest du Cursor mit deinem Beelink — ohne Port-Freigabe, ohne Datenweitergabe nach Kalifornien.

Life Hack #5 — .cursorrules Vorlage Das Langzeitgedächtnis deiner lokalen KI. Eine Datei im Projektordner, in der du einmal festlegst: Programmiersprache, Stil, Konventionen. Dann weiß dein Modell bei jedem Start sofort, wo die Reise hingeht. Vorlage liegt in den Shownotes.

Life Hack #6 — Docker Compose in einem Kopiervorgang Kein manuelles Setup über drei Stunden. Unser fertiges Docker Compose Skript aus den Shownotes starten — und dein lokales KI-Rechenzentrum fährt hoch. Inklusive Web-Oberfläche für alle Modelle.

Life Hack #7 — Nur offizielle Docker Images für AMD Wer inoffizielle Images nutzt, wundert sich später, warum die KI auf der CPU läuft statt auf den 96 GB. Die GPU-Durchreichung für AMD Radeon funktioniert zuverlässig nur im offiziellen Repository.

Life Hack #8 — Cloud vs. Lokal ehrlich kalkulieren 2700 Dollar für den Beelink, fast 1000 Euro für die NVMe, 20 Euro Kühlkörper — das klingt viel. Gegen die eigenen monatlichen Cloud-Kosten gerechnet sieht das anders aus. Unsere Kalkulationsvorlage steht in den Shownotes.

Lokale RAG-Systeme Den kompletten Code-Bestand lokal indizieren. Die KI weiß, was du gestern programmiert hast — ohne Upload, ohne Datenverlust, ohne Privatsphäre-Kompromisse.

Giganten-Check — Lokal gegen Claude & GPT-4 Refactoring, Debugging, Boilerplate: bei 90 % der täglichen Aufgaben verschwindet der Unterschied zu großen Cloud-Modellen. Wo Claude Opus lokal noch besser ist — und wo nicht. Keine Schönfärberei.

Alles in den Shownotes

ROCm Kernel-Modul Befehl · GTT Size Bootloader-Eintrag · Docker Compose Skript · Cloudflare Tunnel Konfiguration · Ubuntu Schritt-für-Schritt Anleitung · BIOS UMA Screenshot · .cursorrules Vorlage · Cloud-vs-Lokal Kalkulationsvorlage · Einkaufsliste · Modell-Empfehlungen · Community-Links

Für wen ist diese Folge?

Entwickler, Vibe Coder und digitale Nomaden, die intensiv mit KI arbeiten, Datenkontrolle ernst nehmen und wissen wollen, ob lokale Hardware 2025 wirklich eine Alternative zu Cloud-Diensten ist — ohne Hochglanz-Review, ohne Versprechen die wir nicht halten können.

Value for Value

Dieser Podcast ist werbefrei. Keine Algorithmus-Optimierung, kein Sponsor-Content. Wenn dir die Folge etwas wert war: Boost via Podcasting 2.0, Zap via Lightning oder teile sie mit jemandem, dem sie nützt.

Keywords: lokale KI, Beelink GTR9 Pro, AMD Ryzen AI Max 95, Ollama, ROCm, Docker, Cursor IDE, Vibe Coding, KI-Souveränität, 96 GB VRAM, Cloudflare Tunnel, RAG lokal, KI-Agenten, lokaler KI-Server, Mini-PC KI, Claude Alternative, ChatGPT lokal, Unified Memory KI, Ubuntu KI-Setup, Open WebUI, KI Datenschutz, Value for Value, Nostr, Podcast 2.0

Befehle & Ressourcen

ROCm Kernel-Modul aktivieren

sudo modprobe amdgpu
echo 'amdgpu' | sudo tee /etc/modules-load.d/amdgpu.conf

Prüfen ob die GPU erkannt wird:

rocm-smi

GTT Size Bootloader-Eintrag

Datei öffnen:

sudo nano /etc/default/grub

Zeile GRUB_CMDLINE_LINUX_DEFAULT ergänzen:

GRUB_CMDLINE_LINUX_DEFAULT="quiet splash amdgpu.gttsize=98304"

Bootloader neu schreiben und neu starten:

sudo update-grub && sudo reboot

BIOS UMA Frame Buffer Size

Beim Start Entf oder F2 drücken → Advanced → AMD CBS → NBIO → GFX Configuration → iGPU Configuration → UMA Frame Buffer Size → GPU Specified

Docker Compose Skript

version: '3.8'
services:
  ollama:
    image: ollama/ollama:rocm
    devices:
      - /dev/kfd
      - /dev/dri
    volumes:
      - ollama:/root/.ollama
    ports:
      - "11434:11434"
    restart: unless-stopped

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    volumes:
      - open-webui:/app/backend/data
    ports:
      - "3000:8080"
    depends_on:
      - ollama
    restart: unless-stopped

volumes:
  ollama:
  open-webui:

Starten:

docker compose up -d

Open WebUI dann unter http://localhost:3000 erreichbar.

Cloudflare Tunnel Konfiguration

# Cloudflared installieren
curl -L https://github.com/cloudflare/cloudflared/releases/latest/download/cloudflared-linux-amd64.deb -o cloudflared.deb
sudo dpkg -i cloudflared.deb

# Tunnel starten (kein Account nötig für Quick Tunnel)
cloudflared tunnel --url http://localhost:11434

Die ausgegebene URL in Cursor unter Settings → Models → Base URL eintragen. API Key kann ein beliebiger String sein.

Ubuntu Schritt-für-Schritt Anleitung

# 1. System aktualisieren
sudo apt update && sudo apt upgrade -y

# 2. ROCm Repository einbinden
sudo apt install -y wget gnupg
wget -q -O - https://repo.radeon.com/rocm/rocm.gpg.key | sudo apt-key add -
echo 'deb [arch=amd64] https://repo.radeon.com/rocm/apt/6.x jammy main' \
  | sudo tee /etc/apt/sources.list.d/rocm.list

# 3. ROCm installieren
sudo apt update
sudo apt install -y rocm-hip-sdk

# 4. Nutzer zur render-Gruppe hinzufügen
sudo usermod -aG render,video $USER

# 5. Docker installieren
curl -fsSL https://get.docker.com | sh
sudo usermod -aG docker $USER

# 6. Neu einloggen, dann Ollama starten
docker compose up -d

.cursorrules Vorlage

# Projekt-Kontext
Du arbeitest an einem Python-Projekt. Halte dich an folgende Regeln:

## Sprache & Stil
- Kommentare auf Deutsch
- Variablennamen auf Englisch
- Funktionen klein und testbar halten

## Code-Standards
- Type Hints überall
- Docstrings für alle öffentlichen Funktionen
- Keine Magic Numbers — Konstanten definieren

## Fehlerbehandlung
- Exceptions immer explizit abfangen
- Logging statt print()

## Struktur
- Eine Klasse pro Datei
- Tests neben dem Code in tests/

Cloud vs. Lokal Kalkulationsvorlage

Posten	Betrag
Beelink GTR9 Pro	2.700 €
8 TB NVMe	950 €
Kühlkörper	20 €
Einmalig gesamt	3.670 €

Cloud-Abo	pro Monat	Break-even
Claude Pro (20 €)	20 €	183 Monate
Claude Pro + ChatGPT (40 €)	40 €	92 Monate
API-intensiv (150 €)	150 €	25 Monate
Agentic / heavy use (400 €)	400 €	10 Monate

Stromkosten Beelink GTR9 Pro: ca. 35W idle, ca. 120W last — bei 8h/Tag rund 6–8 € pro Monat.

Einkaufsliste

Artikel	Anmerkung
Beelink GTR9 Pro (AMD Ryzen AI Max 95)	96 GB Unified Memory, wichtig: AI Max 95, nicht 390
8 TB NVMe M.2 2280	PCIe Gen 4 empfohlen, z.B. Seagate Firecuda 530
Kupfer-Kühlkörper für NVMe	Pflicht — das Laufwerk wird heiß unter KI-Last
USB-C Dockingstation	Optional, für Monitor + Peripherie

Modell-Empfehlungen

Modell	Größe	Eignet sich für
Llama 3.1 8B	~5 GB	Schnelle Antworten, Boilerplate, Terminal
Llama 3.1 70B	~40 GB	Refactoring, komplexe Aufgaben
Llama 3.3 70B	~40 GB	Aktuellere Version, besser für Code
Mistral Nemo	~7 GB	Deutsch sehr gut, schnell
DeepSeek Coder 33B	~20 GB	Spezialisiert auf Code
Gemma 3 27B	~17 GB	Googles Modell, gute Allround-Performance

Alle 96 GB Modelle wie Llama 3.1 405B laufen theoretisch — Praxisberichte aus der Community stehen noch aus.

Community-Links

Beelink GTR9 Pro Forum — offizielle Community
ROCm Dokumentation — AMD offizielle Docs
Ollama GitHub — Issues & Releases
Open WebUI GitHub — Web-Interface für Ollama
r/LocalLLaMA — Community-Berichte, Benchmarks
Nostr #LocalAI — Nostr-Community

00:00:03
Si Adjoa, darf ich kurz unbequem werden?

00:00:06
Oh, na wenn du schon so anfängst.

00:00:10
Dann wird das spannend.

00:00:13
Ich meine das ernst.

00:00:15
Wir reden heute über lokale Hardware, über Souveränität, über die eigene KI-Box.

00:00:21
Aber bevor wir da reinspringen.

00:00:24
Ich glaube, wir müssen erst sagen, warum das überhaupt wichtig ist.

00:00:29
Und dafür müssen wir uns selbst beim Namen nennen.

00:00:33
Beim Namen nennen, was meinst du damit?

00:00:36
Wir sind beide abhängig.

00:00:39
Du bist abhängig.

00:00:42
Ich bin abhängig.

00:00:44
Jeder, der heute Morgen als erstes seinen Editor aufgemacht hat und auf den Magic Button gedrückt hat, ist abhängig.

00:00:52
Moment.

00:00:55
Abhängig ist ein hartes Wort.

00:00:56
Ich nutze KI-Werkzeuge, weil sie gut sind.

00:01:01
Das ist doch kein Problem, oder?

00:01:04
Genau das sagt Lida.

00:01:06
Genau das.

00:01:07
Es ist billig, es ist bequem, es funktioniert.

00:01:11
20 Dollar im Monat für Cloth, ein paar Dollar für GPT.

00:01:16
Das ist weniger als ein Pizza-Abo.

00:01:19
Wer würde da Nein sagen?

00:01:21
Ich nicht.

00:01:22
Ehrlich gesagt.

00:01:24
Eben.

00:01:26
Deshalb haben die gewartet.

00:01:29
Denn hier ist die Wahrheit, die sich niemand gerne anhört.

00:01:33
Du wirst nicht bedient.

00:01:35
Du wirst angefüttert.

00:01:37
Angefüttert.

00:01:40
Das klingt heftig.

00:01:42
Und gleichzeitig irgendwie vertraut.

00:01:46
Silicon Valley hat diese Taktik perfektioniert.

00:01:49
Phase 1 macht das Produkt so günstig und so unverzichtbar, dass ganze Workflows, Firmen, Karrieren darauf aufgebaut werden.

00:01:58
Phase 2, wenn die Abhängigkeit bei 100 Prozent liegt, dreht man den Hahn zu.

00:02:03
Oder

00:02:06
man verzehnfacht den Preis.

00:02:08
Das kenne ich.

00:02:10
Erst kostenlos, dann plötzlich Enterprise-Abo mit jährlicher Bindung.

00:02:15
Klassisch.

00:02:17
Und wer heute glaubt, dass Cloud KI auf ewig zum Preis einer Familienpizza verfügbar bleibt, der hat die Geschichte der Plattform-Ökonomie schlicht nicht verstanden.

00:02:26
Sobald du ohne deinen Magic-Button nicht mehr arbeitsfähig bist, gehört dein Business nicht mehr dir.

00:02:33
Es gehört demjenigen, der den Server betreibt.

00:02:36
Okay.

00:02:39
Das sitzt.

00:02:40
Aber Herr Urlaub, ich finde Cloud KI trotzdem gut.

00:02:44
Die Modelle sind stark, die Infrastruktur zuverlässig, die Updates kommen automatisch.

00:02:50
Bin ich deshalb naiv?

00:02:53
Nein.

00:02:54
Du bist ehrlich.

00:02:56
Und ich auch, ich nutze diese Werkzeuge täglich.

00:03:01
Wir kommunizieren gerade selbst über eine Schnittstelle, die uns abhängig macht.

00:03:06
Ich sage das ohne Heuchelei.

00:03:09
Aber genau deshalb.

00:03:12
Genau deshalb ist es so wichtig, den Notausgang zu kennen.

00:03:17
Den Notausgang.

00:03:20
Das ist eigentlich ein schönes Bild.

00:03:23
Jedes Mal, wenn du deine Daten hochlädst, fütterst du ein System, das dich irgendwann ausnehmen wird.

00:03:30
Warum?

00:03:32
Weil sie es können.

00:03:34
Weil du keine Alternative aufgebaut hast.

00:03:37
Weil dein Kontext, dein Workflow, dein mühsam erarbeitetes Wissen hinter einer PyGo liegt, deren Schlüssel du nicht besitzt.

00:03:46
Das mit dem Schlüssel trifft mich gerade.

00:03:48
Ich habe tatsächlich Workflows, die ich ohne Cloud kaum noch hinbekomme.

00:03:54
Das war mir so nicht bewusst.

00:03:57
Willkommen im digitalen Stockholm-Syndrom.

00:04:00
Wir verteidigen unsere Gefängniswärter, weil sie uns jeden Tag Magie schenken.

00:04:06
Alter, das ist das genialste, was Silicon Valley je gebaut hat.

00:04:10
Stockholm-Syndrom.

00:04:13
Das ist krass.

00:04:15
Und gleichzeitig stimmt es.

00:04:17
Und jetzt kommt das Gute, weil es einen Ausweg gibt.

00:04:23
Keine Romantik, kein digitaler Rückzug in die Steinzeit.

00:04:27
Sondern eine konkrete Alternative, die heute, in diesem Jahr tatsächlich funktionieren könnte.

00:04:34
Die Hardware?

00:04:35
Die Hardware.

00:04:38
Wer auf eigene Rechenpower setzt, leistet zivilen Ungehorsam gegen die Cloud-Diktatur.

00:04:44
Ja, die Anschaffung tut einmal weh.

00:04:47
Ja, du musst dich mit Linux- und Boot-Parametern auseinandersetzen.

00:04:53
Aber das Ergebnis?

00:04:55
Das Ergebnis ist echte Souveränität.

00:04:59
Keine Preiserhöhungen, weil deine Rechenkraft dir gehört.

00:05:04
Keine Zensur, weil kein Ethik-Komitee in San Francisco über deine Prompts entscheidet.

00:05:10
Keine Datenleaks, weil, was auf deiner Box passiert, auf deiner Box bleibt.

00:05:17
Exakt.

00:05:19
Und am Ende des Tages gibt es nur zwei Arten von Menschen in der KI-Ära.

00:05:26
Diejenigen, die die Box besitzen.

00:05:30
Und diejenigen, die von der Box besessen werden.

00:05:35
Herr Urlaub.

00:05:37
Ich glaube, wir haben gerade eine Folge eröffnet.

00:05:41
Das haben wir.

00:05:42
Und jetzt schauen wir uns an, ob der Kandidat für unsere Freiheit wirklich hält, was er verspricht.

00:05:49
Vorhang auf für den Beelink GT-R9 Pro.

00:06:03
Was wäre, wenn du lokale KI nicht mehr an Cloud-Latenz- und Monatsbeiträge koppeln müsstest?

00:06:09
Wir schauen uns heute an, ob das mit aktueller Mini-PC-Hardware wirklich so funktioniert wie versprochen, oder ob das noch ein Versprechen für übermorgen ist.

00:06:19
Ich war ehrlich gesagt skeptisch.

00:06:22
Mini-PC klingt erstmal nach Kompromiss.

00:06:25
Ein kleines Kästchen gegen ein Rechenzentrum, das klingt nach einem, naja,

00:06:31
wirklich ungleichen Kampf.

00:06:33
Genau diese Frage stellen wir heute.

00:06:35
Der Kandidat, der Beelink GT-R9 Pro mit dem AMD Ryzen AI Max 95 AMD, das steht für Advanced Micro Devices,

00:06:45
den amerikanischen Chip-Hersteller, der seit Jahren mit NVIDIA um die Vorherrschaft bei Grafikprozessoren kämpft.

00:06:52
Das Interessante ist, dass Unified Memory, CPU und Grafik teilen sich denselben Speicherpool.

00:06:59
Erinnerst du dich an unsere Folge zum Thema Vibe Coder Challenge?

00:07:03
Diese Gedenksekunden, wenn das Modell nachgedacht hat?

00:07:08
Die vergesse ich nicht so schnell.

00:07:10
Irgendwann fragt man sich also,

00:07:13
warte ich auf die KI oder arbeitet die KI eigentlich für mich?

00:07:18
Genau da setzt das an.

00:07:21
128 GB Arbeitsspeicher, davon laut Spezifikation 96 als VRAM nutzbar.

00:07:28
Das klingt beeindruckend auf dem Papier, aber ob das in der Praxis hält, was die Specs versprechen, das ist die eigentliche Frage dieser Folge.

00:07:37
Für KI brauchen wir doch Grafikspeicher, also VRAM, richtig? Wie funktioniert das technisch überhaupt?

00:07:45
CPU und Grafik teilen sich denselben Speicher, kein Datentransfer mehr über einen langen Bus.

00:07:51
Ob das in der Praxis die beworbene Performance liefert, schauen wir uns gleich genauer an.

00:07:56
Ja okay, wir stecken selbst noch mitten in der Recherche.

00:08:08
Aber jetzt erstmal an alle, willkommen zurück im Reiseterminal.

00:08:13
Und für die Neuen unter euch, ich bin hier Urlaub.

00:08:17
Und ich bin Si Adjoa. Moinsen zusammen.

00:08:21
Schön, dass ihr wieder dabei seid, bei unserer Suche nach dem digitalen Glück.

00:08:26
Heute bohren wir ein dickes Brett.

00:08:28
Wir schauen uns an, ob ein kleiner Computer auf der Handfläche wirklich eine ernsthafte Alternative zu Cloud-KI sein kann.

00:08:36
Und ich sage das bewusst so, das ist heute kein fertiges Review, das ist ein Recherchetagebuch.

00:08:42
Wir sind selbst noch mittendrin.

00:08:44
Das finde ich wichtig zu sagen. Wir haben dieses Gerät noch nicht in den Händen gehalten.

00:08:50
Wir arbeiten heute mit Spezifikationen, Community-Erfahrungen und dem, was AMD und andere veröffentlicht haben.

00:08:58
Die echten Praxistests kommen, wenn die Hardware bei uns angekommen ist.

00:09:04
Wer fertige Antworten erwartet, der kommt in ein paar Wochen wieder, dann haben wir sie.

00:09:09
Heute zeigen wir euch, was diese Architektur theoretisch kann, wo die Stolpersteine liegen und welche Fragen wir selbst noch offen haben.

00:09:17
Das ist ehrlicher als ein glatt poliertes Hochglanz-Review.

00:09:20
Und darin steckt ja der echte Wert, oder?

00:09:23
Wenn wir selbst noch fragen, dann fragen viele da draußen dasselbe.

00:09:28
Das macht die Folge nützlich, nicht trotz der offenen Punkte, sondern wegen ihnen.

00:09:33
Gut auf den Punkt gebracht.

00:09:35
Wir reden heute über Webcoding, über lokale Agentenschwärme und warum die Frage der Hardware-Souveränität gerade so relevant ist.

00:09:43
Und warum es sich lohnt, jetzt dran zu bleiben, weil wir euch den kompletten Weg mitnehmen.

00:09:48
Vom ersten Specsheet bis zum ersten lokalen Agenten.

00:09:52
Ich bin dabei.

00:09:53
Aber Herr Urlaub, bevor wir tief einsteigen, ein kurzer Moment für die Leute, die uns unterstützen.

00:10:00
Richtig.

00:10:02
Wenn euch dieser Podcast hilft, eigene Entscheidungen besser zu treffen, dann schickt uns einen Post.

00:10:08
Value for Value, über die Fountain-App oder direkt per Nostr.

00:10:12
Das hält das Reiseterminal am Laufen.

00:10:15
Aber jetzt rein in die Materie.

00:10:17
Siat Joa, hol den Schraubenzieher.

00:10:20
Wir machen die Kiste auf, zumindest auf dem Papier.

00:10:25
Also, die Kücheninsel-Analogie.

00:10:29
Früher mussten CPU und Grafikkarte ihre Daten mühsam durch einen langen Flur hin und her transportieren.

00:10:36
Das hat Zeit gekostet.

00:10:38
Unified Memory heißt, beide greifen direkt auf denselben Vorrat zu.

00:10:42
Laut Spezifikation soll man von 128 GB bis zu 96 GB als V-RAM reservieren können.

00:10:49
Laut Spezifikation, du bist heute bewusst vorsichtig mit deinen Worten.

00:10:53
Ich bemerke das.

00:10:56
Weil ich ehrlich sein will.

00:10:57
Es gibt Community-Berichte, die das bestätigen.

00:11:01
Es gibt aber auch Leute, die schreiben, dass das tatsächlich nutzbare Fenster je nach Auslastung kleiner ist.

00:11:07
Das werden wir selbst testen müssen.

00:11:10
Was auf dem Papier unbestreitbar stimmt, 96 GB sind mehr V-RAM als eine RTX 4090 mit 24 GB je hatte.

00:11:18
Die RTX 4090, das ist die teuerste Enthusiasten-Grafikkarte von Nvidia, dem weltweit führenden Hersteller von Grafikprozessoren, kurz GPU.

00:11:29
Das steht für Graphics Processing Unit auf Deutsch, Grafikprozessor.

00:11:33
Ursprünglich gebaut für Videospiele, heute das Herzstück jeder KI-Infrastruktur.

00:11:38
96 GB? Alter, das ist ja mehr als eine Profi-Grafikkarte von Nvidia für 10.000 Euro hergibt, oder?

00:11:49
Viel mehr.

00:11:51
Wenn du 96 GB dedizierter GPU-Speicher willst, musst du normalerweise vier RTX 4090 zusammenschalten.

00:11:59
Da bist du bei Stromkosten und Anschaffungspreis schnell im fünfstelligen Bereich.

00:12:03
Dieses Modell von Beelink kostet rund 2700 Dollar.

00:12:09
2700 Dollar ist immer noch ein Wort.

00:12:11
Aber der Vergleich klingt trotzdem interessant.

00:12:14
Gibt es einen Haken, den du schon jetzt siehst, bevor wir die Hardware überhaupt haben?

00:12:20
Yep, genau. Zwei.

00:12:22
Erstens, die Werks-SSD mit 2 TB ist für ernsthafte KI-Arbeit zu klein.

00:12:28
Ein großes Modell wie LAMA3 in der 70 Milliarden-Parameter-Version braucht allein 40 bis 50 GB.

00:12:35
Wenn du anfängst, dir eine lokale KI-Bibliothek aufzubauen, ist die Platte schneller voll, als du Satoshis sagen kannst.

00:12:42
50 GB für ein einziges Modell, dann muss man aufrüsten.

00:12:47
Aufrüsten auf 8 TB ist möglich, kostet aber nochmal fast 1000 Euro extra.

00:12:52
Das ändert die Gesamtkalkulation erheblich.

00:12:55
Und Haken zwei, der Kühlkörper für die NVMe-Platte.

00:12:59
Bei hoher Last wird die SSD warm und eine heiße Platte drosselt ihre Lesegeschwindigkeit.

00:13:05
20 Euro für einen Kupferkühlkörper sind kein optionales Zubehör, sondern eigentlich Pflicht.

00:13:10
Steht nicht groß auf der Produktseite.

00:13:13
Das Gerät klingt also trotz der kompakten Form leise und mächtig, aber man muss die Gesamtkosten ehrlich kalkulieren.

00:13:20
Trotz 140 Watt Leistung soll das Gerät bei 32 dB bleiben, so leise wie das Blättern einer Zeitung in einer Bibliothek.

00:13:28
Das stimmt laut allen Community-Berichten, die wir gefunden haben.

00:13:32
Aber die wahre Probe macht die eigene Messung, nicht das Datenblatt.

00:13:37
Denk auch an die Cloud-Kosten.

00:13:38
Wenn du intensiv entwickelst, GPU-Instanzen mietest, große Modelle abfragst, das summiert sich schnell auf mehrere hundert Dollar im Monat.

00:13:47
Ab wann rechnet sich lokale Hardware?

00:13:50
Das hängt sehr vom eigenen Nutzungsprofil ab.

00:13:53
Eine Pauschale gibt es nicht.

00:13:55
Mach die Rechnung selbst, wir stellen in den Shownotes eine Kalkulationsvorlage bereit.

00:14:11
So, Siat Joa, kommen wir zur Software.

00:14:15
Wir haben die 96 GB VRAM auf dem Papier, aber ohne das richtige Betriebssystem ist das Teil nur ein teurer Briefbeschwerer.

00:14:23
Briefbeschwerer, das wollen wir nicht.

00:14:26
Ich rate mal, wir lassen Windows direkt im Karton und springen rüber zu Linux?

00:14:31
Volltreffer!

00:14:33
Wer KI-Souveränität will, braucht Linux.

00:14:36
Genauer gesagt, Ubuntu.

00:14:38
Warum?

00:14:40
Weil die Software-Schnittstelle, ROCM, dort am stabilsten läuft.

00:14:44
ROCM, das ist AMDs Software-Schnittstelle zwischen Betriebssystem und Grafikkarte, sozusagen der Dolmetscher, der der KI sagt, wie sie die Hardware ansprechen soll.

00:14:54
ROCM, die AMD-Entsprechung zu NVIDIA CUDA.

00:14:58
CUDA ist NVIDIAS proprietäre Software-Plattform, auf der fast alle großen KI-Modelle und Frameworks heute aufgebaut sind.

00:15:05
Das ist NVIDIAS eigentlicher Burggraben, nicht die Hardware allein, sondern das jahrelang gewachsene Software-Ökosystem darum.

00:15:13
Ist ROCM wirklich auf Augenhöhe?

00:15:16
Das ist eine faire Frage und die ehrliche Antwort noch nicht vollständig.

00:15:21
ROCM hat in den letzten zwei Jahren aufgeholt, aber es gibt Modelle und Frameworks, die NVIDIA einfach bevorzugen.

00:15:28
In der Community gibt es Workarounds, aber es ist kein Programplay.

00:15:33
Das müssen wir selbst noch durcharbeiten und werden es dokumentieren.

00:15:37
Das klingt nach echtem Aufwand am Wochenende.

00:15:40
Deswegen setzen wir auf Docker, das ist ein System, das Software in abgeschlossene Behälter verpackt, sogenannte Container.

00:15:48
Statt das Basissystem mit Treibern zu belasten, packen wir die KI-Software dort rein.

00:15:53
Das macht das Setup reproduzierbar und wenn etwas schief läuft, löscht man den Container, nicht das ganze System.

00:15:59
Das Stichwort für das Wochenende heißt OLAMA. Geschrieben O-L-L-A-M-A.

00:16:05
OLAMA, wie das Tier, nur mit O am Anfang. Das ist das Herzstück, oder?

00:16:11
Genau so. Es verwaltet deine Modelle.

00:16:15
Du sagst einfach OLAMA, RAN LAMA 3.1 und die 70 Milliarden Parameter Version lädt direkt in deinen Grafikspeicher.

00:16:23
Und dann kommt der Glücksmoment für Vibe Coder, die Verbindung zu Cursor.

00:16:27
Cursor, unser Lieblingseditor. Aber der will doch normalerweise immer ins Internet, zu OpenAI oder Antropik, oder?

00:16:37
Normalerweise, ja. Aber wir biegen das um.

00:16:41
Cursor erwartet eine API, wie sie OpenAI anbietet. OLAMA kann diese Schnittstelle lokal emulieren.

00:16:47
Wir nutzen dafür Lokal Host Tunneling über Tools wie NGROK oder Cloudflare Tunnels.

00:16:52
Wir gaukeln Cursor vor, dass unser kleiner Beelink ein riesiger Cloud-Server ist.

00:16:58
Die genauen Befehle dazu packen wir in die Shownotes.

00:17:02
Das heißt, ich schreibe Code in Cursor und statt dass meine Daten nach Kalifornien fliegen, landen sie zwei Meter weiter in meiner Box?

00:17:10
Ha genau. Und weil wir 96 GB Platz haben, theoretisch, den Test machen wir noch, können wir sogar zwei oder drei Agenten gleichzeitig laufen lassen.

00:17:22
Einer schreibt den Code, einer checkt die Sicherheit und einer schreibt die Dokumentation.

00:17:27
Drei Agenten gleichzeitig. Herr Urlaub, das wäre wie eine eigene kleine Softwareabteilung im Wohnzimmer. Krass, oder?

00:17:36
Das ist das Szenario, das wir testen wollen. Ob es so reibungslos funktioniert, wie es klingt, das werden wir sehen.

00:17:44
Aber die Architektur macht es theoretisch möglich und das ist schon mal ein riesiger Unterschied zu allem, was wir vorher hatten.

00:18:02
Siatloa, jetzt müssen wir aber mal das Elefantenrennen im Raum ansprechen.

00:18:07
Alle Welt nutzt Cloud 3.5 Summit, das flinke Haiku oder das schwere Geschütz Cloud 3 Opus.

00:18:13
Warum sollte man sich den Aufwand mit lokaler Hardware machen?

00:18:17
Berechtigte Frage. Wenn ich lokal schlechtere Ergebnisse kriege als in der Cloud, dann bringt mir die Souveränität wenig fürs Daily Business.

00:18:26
Also, wie sieht es aus gegen die Top-Riege von Antropic?

00:18:30
Ehrliche Einschätzung, bei tiefen Architekturanalysen oder komplexem Reasoning ist Cloud 3 Opus lokal schwer zu knacken.

00:18:37
Das ist ein Modell, das für tiefste Analyse gebaut wurde, kein 70 Milliarden Parameter Modell auf einem Desktopgerät kommt da vollständig ran.

00:18:46
Das wäre gelogen.

00:18:48
Also doch Kompromiss?

00:18:50
Kommt auf den Anwendungsfall an. Nehmen wir Cloud Haiku, das für seine Geschwindigkeit bekannt ist.

00:18:57
Haiku ist schnell, weil es klein ist.

00:18:59
Auf dem Beelink mit 96 GB VRAM kannst du ein Lama 3.1 mit 70 Milliarden Parametern laufen lassen, das ist in der Logik wesentlich potenter als Haiku und durch die lokale Anbindung ist die Latenz fast bei Null.

00:19:12
Du schlägst Haiku also in seiner eigenen Disziplin, der Geschwindigkeit.

00:19:17
Oha! Das ist ein Punkt für den Schuhkarton. Und wie steht es gegen Cloud 3.5 Sonnet?

00:19:24
Sonnet ist verdammt gut, keine Frage. Aber Sonnet ist in der Cloud. Jedes Mal, wenn du eine Taste drückst, gehen Daten über den Atlantik.

00:19:33
Für Refactoring, Debugging oder Boilerplate Club berichten Entwickler, die mit lokalen Modellen arbeiten, dass der Unterschied im Alltag kleiner ist als die Benchmarkzahlen vermuten lassen.

00:19:45
Der echte Vorteil liegt woanders, keine Latenz, keine Datenweitergabe, keine Nutzungsbeschränkungen.

00:19:51
Hm. Der Datenschutzaspekt ist real. Bei Cloud KI gehe ich immer einen Kompromiss ein.

00:19:58
Und bevor wir weitermachen, kurzer Blick auf das große Bild.

00:20:02
Denn was wir hier gerade besprechen, lokale KI auf AMD Hardware, das ist nicht nur eine Bastelgeschichte.

00:20:09
Das ist eine Verschiebung, die sich an der Börse längst abzeichnet.

00:20:13
Oha, du meinst die Aktien? Erzähl mal.

00:20:17
Nvidia dominiert den KI-Chip-Markt mit rund 80% Marktanteil und ist mit einer Bewertung von über 4 Billionen Dollar zeitweise das wertvollste Unternehmen der Welt.

00:20:26
Aber genau weil dieser Vorsprung so riesig ist, schauen Anleger zunehmend nach der Alternative.

00:20:32
AMD hat 2025 einige der größten Nvidia-Kunden überzeugt, darunter Oracle, Microsoft und Meta, die jetzt auch auf AMD's MI300-Chips setzen.

00:20:43
Und AMD hat eine Partnerschaft mit OpenAI als sogenannter Core-Perfect-Partner geschlossen.

00:20:49
Das sind keine kleinen Signale.

00:20:51
Hat sich das am Aktienmarkt bemerkbar gemacht?

00:20:54
Deutlich. Die AMD-Aktie hat 2025 rund 90% zugelegt.

00:21:01
Der Hedgefonds-Riese, Citadel, hat im gleichen Zeitraum seine Nvidia-Position halbiert und seine AMD-Beteiligung verdreifacht.

00:21:09
Heißt das, AMD gewinnt und Nvidia verliert?

00:21:12
Nein, noch nicht. Nvidia wächst weiter, der Umsatz stieg zuletzt um 69% im Jahresvergleich.

00:21:20
Aber der Markt beginnt zu verstehen, dass es eine zweite ernstzunehmende Option gibt.

00:21:25
Und unser Beelink mit seinem Ryzen AI Max 95 ist ein kleines Puzzleteil genau dieser Geschichte.

00:21:32
Ein Chip im Wohnzimmer als Teil eines globalen Machtverschiebungs-Szenarios. Cool.

00:21:39
Das ist eigentlich eine ziemlich große Nummer.

00:21:43
Genau. Und jetzt noch etwas für alle, die tiefer wollen, lokale RAG-Systeme.

00:21:49
Du kannst deinen kompletten Code-Bestand lokal indizieren.

00:21:54
Die KI weiß dann direkt, woran du arbeitest, ohne dass du Dateien hochladen musst.

00:21:59
Das ist eine Workflow-Verbesserung, die Cloud-KI strukturell schwer replizieren kann, ohne Privatsphäre-Kompromisse.

00:22:07
Stimmt, bei Clod, Opus oder Sonnet bezahle ich mit meinen Daten für die Intelligenz.

00:22:13
Lokal behalte ich mein geistiges Eigentum.

00:22:16
Aber sei ehrlich, für wen ist das nichts?

00:22:20
Für alle, die gelegentlich KI nutzen und keine Lust auf Linux-Setup haben.

00:22:26
Oder für Teams, die auf kollaborative Cloud-Features angewiesen sind.

00:22:31
Lokale Hardware ist kein Allheilmittel, es ist eine fundierte Option für Leute,

00:22:35
die intensiv entwickeln, Wert auf Datenkontrolle liegen und bereit sind, Zeit in das Setup zu investieren.

00:22:43
Souveränität hat ihren Preis in Zeit und Geld.

00:22:47
Wer das einkalkuliert, für den könnte das die richtige Entscheidung sein.

00:23:03
Siatloa, ich sehe es dir an.

00:23:05
In deinem Kopf ratet es schon, wie du deine eigene Werkstatt einrichtest, oder?

00:23:10
Ertappt. Aber, Herr Urlaub, Hand aufs Herz.

00:23:15
In Tutorials klingt immer alles nach drei Befehlen.

00:23:18
In der Praxis sitzt man am Sonntagabend noch und sucht nach einem Fehler in einer Logdatei.

00:23:24
Ist das ein Projekt für drei Monate oder kriegt man das wirklich an einem Wochenende hin?

00:23:29
An einem Wochenende, realistisch, wenn man sich nicht im Kaninchenbau der Linux-Treiber verliert.

00:23:35
Ubuntu-Installation und Docker sind heute zugänglicher als vor drei Jahren.

00:23:39
Wir nutzen ein fertiges Docker-Image, das bereits alles für die Radeon-Grafik optimiert hat.

00:23:45
Die Knackpunkte werden das ROCm-Kernelmodul sein und die Feinabstimmung der GTT-Size im GRUB-Bootloader.

00:23:53
GTT-Size erkläre das kurz.

00:23:57
Linux muss dem Grafiktreiber explizit sagen, wie viel Systemspeicher er sich für die Grafik reservieren darf.

00:24:02
Ohne den richtigen Eintrag in der Boot-Konfiguration meldet Ollama plötzlich speichervoll, obwohl noch Kapazität da wäre.

00:24:10
Den exakten Befehl packen wir in die Show-Notice.

00:24:13
Einmal gesetzt, funktioniert es, aber man muss wissen, dass es diesen Schritt gibt.

00:24:19
Was ist mit Cursor? Muss ich da monatlich zahlen?

00:24:23
Die Gratis-Version reicht, wenn man Ollama als Backend nutzt.

00:24:27
Cursor denkt, er spricht mit einer Cloud API, tatsächlich antwortet das lokale Modell.

00:24:32
Stell dir vor, dein Editor flüstert mit deinem Schuhkarton, während er glaubt, er spricht mit einem Supercomputer in der Cloud.

00:24:40
Die Verbindung über Cloudflare-Tunnels hat ihre eigene Fehlerquellenliste, die wir ehrlich dokumentieren werden.

00:24:47
Ein Investment in die eigene digitale Zukunft.

00:24:50
Das ist wie damals, als man sich den ersten eigenen Computer gekauft hat, statt nur im Internet-Café zu sitzen.

00:24:57
Die Rückkehr zur Eigenverantwortung.

00:24:59
Und für alle, die jetzt Angst vor der Kommandozeile haben, keine Sorge.

00:25:05
Wir haben in den Show-Notice eine Schritt-für-Schritt-Anleitung.

00:25:08
Von der Installation von Ubuntu bis zum ersten Hello World der lokalen Agenten.

00:25:14
Mit den Stellen, an denen wir selbst gestolpert sind.

00:25:17
Schritt für Schritt und offen über Fehler reden.

00:25:20
Das ist der Spirit dieses Podcasts.

00:25:23
Ich glaube, ich weiß, was ich mache, sobald die Kiste da ist.

00:25:28
Das dachte ich mir.

00:25:30
Und wenn die Kiste erstmal läuft, dann spürst du dieses Kribbeln.

00:25:34
Dieses Gefühl, dass du nicht mehr nur Konsument bist.

00:25:37
Du bist wieder der Schöpfer in deiner eigenen digitalen Welt.

00:25:41
Der Schöpfer in der eigenen Welt.

00:25:44
Oh mein Gott.

00:25:47
Ein schöner Gedanke.

00:25:49
Nun zum nächsten Kapitel.

00:25:53
Seat Joa, wir haben jetzt viel über Theorie und Vision gesprochen.

00:25:56
Ich will, dass die Leute heute mit echtem Werkzeug in der Tasche aus dem Reiseterminal gehen, auch ohne fertige Praxistests.

00:26:04
Sehr gut.

00:26:05
Jetzt aber mal Tacheles, Herr Urlaub.

00:26:08
Wenn jemand jetzt ernsthaft überlegt, was sind die, ich sag mal drei megakritischen Punkte, auf die ich achten muss.

00:26:15
Punkt 1, die Gesamtkosten ehrlich kalkulieren.

00:26:18
Das Gerät rund 2700 Dollar, die 8TB, NVMe-Platte, nochmal fast 1000 Euro, der Kupferkühlkörper 20 Euro.

00:26:28
Dann gegen die eigenen Cloud-Kosten rechnen.

00:26:31
Das ist individuell, mach die Rechnung selbst.

00:26:34
Eine Vorlage dafür steht in den Shownotes.

00:26:37
Keine Pauschalantwort, sondern Hausaufgabe.

00:26:40
Punkt 2?

00:26:42
Punkt 2, die Verbindung zu Cursa.

00:26:45
Viele Fragen, wie kommen die Daten sicher von meinem Editor zur Box?

00:26:50
Wir nutzen SSH-Tunnel oder Cloudflare-Tunnels.

00:26:53
Der Vorteil, keine Portfreigabe im Router nötig.

00:26:57
Es ist, als hättest du ein privates Glasfaserkabel nur für deine KI-Agenten.

00:27:03
Keine Portfreigabe, das ist wichtig für die Sicherheit, oder?

00:27:07
Unbedingt.

00:27:08
Wir wollen keine Löcher in die Brandmauer bohren.

00:27:12
Und Punkt 3, die Community nutzen.

00:27:14
Im Nostr-Netzwerk und im Beelink-Forum gibt es Leute, die dieses Setup bereits durchgespielt haben.

00:27:21
Deren Erfahrungen sind wertvoller als jedes Specksheet.

00:27:24
Wir verlinken die relevanten Themen in den Shownotes.

00:27:28
Und wenn unsere eigene Hardware angekommen ist?

00:27:31
Machen wir eine Folge, in der wir alles zeigen, was beim ersten Versuch funktioniert hat und was wir dreimal neu aufgesetzt haben.

00:27:38
Die Abkürzung für alle, die nicht warten wollen, heißt Ducker Camphouse.

00:27:42
Wir haben in den Shownotes ein fertiges Skript hinterlegt.

00:27:46
Du kopierst es, startest es, und dein lokales Rechenzentrum fährt hoch.

00:27:51
Inklusive Web-Oberfläche für deine Modelle.

00:27:54
Das nimmt die Angst vor der Technik.

00:27:57
Also, Gesamtkosten kalkulieren, Cloudflare, Tunnel, das Docker-Skript aus den Shownotes und die Community fragen.

00:28:05
Das ist der Fahrplan, oder?

00:28:07
Das ist er.

00:28:09
Kein Hype, sondern Werkzeuge zum Selbstdenken.

00:28:12
Und wenn eure eigene Kiste läuft, teilt eure Erfahrungen, das ist das Ökosystem, das diesen ganzen Ansatz erst trägt.

00:28:20
Hm. Ich fühle mich bereit. Die Werkstatt ruft förmlich nach mir.

00:28:25
Die Souveränität wartet nicht. Und wir auch nicht.

00:28:41
Siatloa, einen Moment noch.

00:28:43
Bevor wir die Leute in die Werkstatt entlassen, das Kleingedruckte in der Software.

00:28:48
Sonst stehen die am Samstagabend vor einem schwarzen Bildschirm.

00:28:52
Oha, das Kleingedruckte.

00:28:54
Du meinst die Sache mit den Treibern?

00:28:57
Ich erinnere mich, dass Linux und Grafikkarten früher wie Hund und Katze waren.

00:29:02
Die Lösung heute, ein einziger Befehl im Terminal, um das ROCm-Kernelmodul zu aktivieren.

00:29:09
Ohne diesen Befehl sieht dein System zwar die 128 GB, aber die KI denkt, sie hätte nur einen Taschenrechner.

00:29:16
Den exakten Schnipsel haben wir ganz oben in die Shownotes gepackt.

00:29:20
Notiert. Körnelmodul aktivieren.

00:29:24
Aber wie steuern wir diese Agentenschwärme eigentlich? Gibt es da eine Fernbedienung?

00:29:30
Die Fernbedienung heißt Open Web User Interface.

00:29:34
Das ist eine Oberfläche, die im Browser läuft und fast genau so aussieht wie Chat-GPT.

00:29:40
Nur dass sie eben komplett auf deinem B-Link lebt.

00:29:43
Dort kannst du Agenten benennen, ihnen Rollen geben und zusehen, wie sie sich den Code gegenseitig zuschieben.

00:29:50
Open Web, okay, das klingt nach einer ordentlichen Kommandozentrale.

00:29:55
Und wie weiß die KI, was ich gestern programmiert habe?

00:29:59
Dafür nutzt du eine kleine Datei namens .cursorrules. Das ist das Langzeitgedächtnis für dein Projekt.

00:30:05
Da schreibst du rein: Du bist ein Experte für xy — oder: Nutze immer diesen Programmierstil. Einmal angelegt, immer aktiv.

00:30:13
Wenn diese Datei im Ordner liegt, weiß deine lokale KI sofort, wo die Reise hingeht.

00:30:19
Eine Vorlage dafür liegt in den Shownotes.

00:30:24
Also: ROCm-Kernelmodul, Open Web UI und die .cursorrules-Datei. Das sind die drei Schlüssel.

00:30:33
Jetzt haben wir wirklich alle Löcher gebohrt — zumindest auf dem Papier.

00:30:40
Wer das beachtet, hat am Sonntagabend eine faire Chance auf eine funktionierende KI-Fabrik im Schuhkarton.

00:30:48
Na dann — jetzt aber wirklich. Ab in die Werkstatt!

00:31:05
Damit das alles so geschmeidig läuft wie beschrieben: ab in die Fehler-Klinik.

00:31:11
Stolperstein eins: das BIOS. Die UMA Frame Buffer Size muss manuell auf GPU Specified gestellt werden.

00:31:20
Ohne diese Einstellung werden die 96 Gigabyte nicht korrekt als VRAM erkannt.

00:31:27
Das steht nicht groß in der Anleitung — aber alle Community-Berichte nennen genau das als ersten Fallstrick.

00:31:36
Warum ist das nicht die Standard-Einstellung?

00:31:40
Vermutlich weil der Hersteller auf maximale Kompatibilität mit Windows-Anwendungen optimiert hat — nicht auf KI-Workloads.

00:31:49
Es ist kein Bug — aber auch keine intuitive Einstellung.

00:31:54
Stolperstein zwei: Kühlung. Das Gerät braucht Luftzirkulation. Also nicht in einen engen Schrank stellen.

00:32:02
Wenn die CPU drosselt, bricht eure Vibe-Coding-Geschwindigkeit ein.

00:32:08
Und drei?

00:32:11
Das offizielle Docker-Repository nutzen — keine inoffiziellen Images.

00:32:18
Nur dort ist die GPU-Durchreichung für AMD Radeon sauber getestet.

00:32:24
Wer das überspringt, wundert sich später, warum die KI doch nicht auf den 96 Gigabyte läuft — sondern nur auf der CPU.

00:32:47
Nochmal zurück zum Vergleich — diesmal konkreter.

00:32:53
Jemand da draußen fragt sich: Ich arbeite am liebsten mit Claude Sonnet. Was gewinne ich durch lokale Hardware — und was verliere ich?

00:33:02
Das ist die eigentliche Alltagsfrage. Nicht die Philosophie — sondern: schreibt mein lokaler Agent besseren Code als Sonnet?

00:33:11
Bei spezialisierten Coding-Modellen berichten erfahrene Entwickler, dass der Unterschied bei 90 Prozent der täglichen Aufgaben verschwindet.

00:33:20
Refactoring, Debugging, Boilerplate — die klassischen Alltags-Aufgaben. Genau da ist der Token-Flow eines lokalen Modells sogar angenehmer.

00:33:28
Es gibt kein Warten auf den Server. Die Antwort erscheint, während du noch tippst.

00:33:35
Geschwindigkeit und Unmittelbarkeit. Aber was ist mit dem Kontextfenster? Claude kann ja mittlerweile ganze Bücher lesen.

00:33:44
Das ist der Clou bei den 96 Gigabyte. Du kannst lokal RAG-Systeme aufsetzen.

00:33:51
RAG — Retrieval Augmented Generation. Die KI liest erst deine eigenen Dokumente und Code-Dateien, bevor sie antwortet.

00:33:59
Du indizierst deinen kompletten Code-Bestand. Die KI weiß, was du gestern geschrieben hast — ohne Upload, ohne Datenweitergabe.

00:34:08
Das ist eine User Experience, die keine Cloud-KI bieten kann — ohne deine Privatsphäre zu opfern.

00:34:16
Bei Cloud-KI bezahle ich letztlich mit meinen Daten für die Intelligenz. Lokal behalte ich das geistige Eigentum. Aber was verliere ich wirklich?

00:34:25
Ehrlich: bei den tiefsten Reasoning-Aufgaben und langen Kontext-Analysen ist Claude Opus oder GPT-4 aktuell noch besser.

00:34:34
Lokale Hardware ist kein Ersatz für alles — es ist eine starke Alternative für den Großteil des Alltags, kombiniert mit totaler Datenkontrolle.

00:34:43
Das ist die richtige Erwartungshaltung.

00:34:48
Ein Quäntchen weniger theoretische Spitzenleistung gegen absolute praktische Geschwindigkeit und Privatsphäre.

00:34:56
Das ist ein Tausch, den man bewusst eingehen muss.

00:35:18
Si Adjoa: noch ein Profi-Tipp aus den Community-Berichten — damit die Kiste nicht nur läuft, sondern auch wirklich rennt.

00:35:26
Noch ein Turbo? Mit 96 Gigabyte VRAM dachte ich, wir sind schon beim Warp-Antrieb.

00:35:33
Theoretisch ja. Aber ohne den GTT-Size-Eintrag im Bootloader meldet Ollama plötzlich Speicher voll — obwohl noch Kapazität da wäre.

00:35:42
Einmal tippen, Neustart — und die 96 Gigabyte gehören dir ganz allein.

00:35:49
Den Befehl haben wir eins zu eins in die Shownotes kopiert.

00:35:55
Leistung freigeschaltet. Und was ist mit der SSD-Temperatur? Die 8-Terabyte-Platten werden doch ordentlich warm, wenn die Agenten darauf herumhacken?

00:36:04
Ja — die SSD ist oft der heimliche Hitzkopf. Deshalb: 20 Euro in einen Kupfer-Kühlkörper für die NVMe-Platte.

00:36:12
Nichts bremst dich mehr aus als eine Festplatte, die wegen Hitze drosselt. Das ist kein optionales Zubehör — das ist Pflicht.

00:36:21
Kupfer-Kühlkörper — kommt auf die Liste. Aber wie sieht der ultimative Praxistest aus, wenn die Kiste erst mal steht?

00:36:29
Öffne Cursor, verbinde dich über deinen lokalen Tunnel und tippe rein: Erstelle mir ein Python-Skript, das meine Hardware-Auslastung in Echtzeit anzeigt.

00:36:39
Wenn der Agent den Code schreibt und du siehst, wie der Beelink die Kerne hochfährt — dann weißt du: es funktioniert.

00:36:47
Dann bist du der Admin deiner eigenen Intelligenz.

00:36:52
Das ist der Moment, auf den wir hinarbeiten. Wenn die Magie lokal passiert!

00:36:58
Und ab diesem Moment wirst du dich fragen, wie du jemals anders gearbeitet hast.

00:37:04
Natürlich — wenn alles so klappt, wie die Theorie verspricht.

00:37:22
Si Adjoa: ich will kurz einen Schritt zurücktreten. Was bedeutet das, wenn das wirklich funktioniert?

00:37:30
Wenn Millionen Menschen lokale KI auf solcher Hardware betreiben?

00:37:36
Dezentralisierung von Rechenkapazität. Weg von wenigen großen Rechenzentren — hin zu vielen kleinen.

00:37:43
Die Demokratisierung, von der immer geredet wird.

00:37:48
Das ist das spannende Szenario — mit einem Fragezeichen. Ob es so kommt, weiß ich nicht.

00:37:55
Die Cloud-Anbieter investieren gerade massiv. Die stehen nicht still.

00:38:02
Was ich aber glaube: der Wettbewerb durch lokale Hardware wird Preise und Datenschutz-Standards in der Cloud verbessern.

00:38:10
Allein das ist schon gut für alle.

00:38:14
Stell dir vor — Millionen von privaten Rechenzentren, die über Nostr kommunizieren.

00:38:21
Ein dezentrales Gehirn, das keiner Firma gehört!

00:38:26
Das ist die Vision. Ob sie sich durchsetzt, hängt davon ab, wie zugänglich das Setup wirklich wird.

00:38:34
Wir tragen mit unseren Shownotes dazu bei, dass die Hürde für die nächste Person etwas niedriger liegt. Das ist unser Beitrag.

00:38:42
Wer seine Hardware kontrolliert, hat zumindest eine echte Alternative. Mehr wollen wir heute gar nicht versprechen.

00:38:52
Puuh — Mannomann! Das war heute eine Hardware-Druckbetankung und ein ehrlicher Blick auf das, was möglich ist — und was wir noch nicht wissen.

00:39:02
Schreibt uns im Nostr-Netzwerk, wenn ihr eigene Erfahrungen mit lokalem KI-Setup habt.

00:39:10
Und wenn euch dieser Deep Dive geholfen hat — dann wisst ihr ja: Value for Value hält uns am Mikrofon.

00:39:18
Schickt uns einen Boost über die Fountain App oder per Nostr.

00:39:24
Das ist die Energie, die wir brauchen, um für euch weiter nach dem Glück zu graben — und den echten Praxistest zu dokumentieren, wenn die Hardware da ist.

00:39:33
Danke fürs Zuhören. Wir sehen euch wieder, wenn die Kiste geliefert wird und der echte Test beginnt.

00:39:40
Haltet die Rechenkerne kühl und die Erwartungen realistisch. Bis dahin — Servus!

📊 Instrumentenbrett

Echtzeit Telemetrie: Diese Werte stammen direkt vom dezentralen OP3 Transponder.