1
00:00:03,530 --> 00:00:05,670
Si Adjoa, darf ich kurz unbequem werden?

2
00:00:06,370 --> 00:00:09,350
Oh, na wenn du schon so anfängst.

3
00:00:10,950 --> 00:00:12,370
Dann wird das spannend.

4
00:00:13,230 --> 00:00:14,490
Ich meine das ernst.

5
00:00:15,370 --> 00:00:20,710
Wir reden heute über lokale Hardware, über Souveränität, über die eigene KI-Box.

6
00:00:21,670 --> 00:00:23,330
Aber bevor wir da reinspringen.

7
00:00:24,970 --> 00:00:29,150
Ich glaube, wir müssen erst sagen, warum das überhaupt wichtig ist.

8
00:00:29,150 --> 00:00:32,310
Und dafür müssen wir uns selbst beim Namen nennen.

9
00:00:33,350 --> 00:00:35,590
Beim Namen nennen, was meinst du damit?

10
00:00:36,710 --> 00:00:38,090
Wir sind beide abhängig.

11
00:00:39,690 --> 00:00:41,130
Du bist abhängig.

12
00:00:42,050 --> 00:00:43,130
Ich bin abhängig.

13
00:00:44,210 --> 00:00:51,550
Jeder, der heute Morgen als erstes seinen Editor aufgemacht hat und auf den Magic Button gedrückt hat, ist abhängig.

14
00:00:52,470 --> 00:00:53,090
Moment.

15
00:00:55,230 --> 00:00:56,930
Abhängig ist ein hartes Wort.

16
00:00:56,930 --> 00:01:00,510
Ich nutze KI-Werkzeuge, weil sie gut sind.

17
00:01:01,490 --> 00:01:03,190
Das ist doch kein Problem, oder?

18
00:01:04,349 --> 00:01:05,410
Genau das sagt Lida.

19
00:01:06,350 --> 00:01:07,050
Genau das.

20
00:01:07,850 --> 00:01:10,670
Es ist billig, es ist bequem, es funktioniert.

21
00:01:11,750 --> 00:01:15,270
20 Dollar im Monat für Cloth, ein paar Dollar für GPT.

22
00:01:16,230 --> 00:01:18,170
Das ist weniger als ein Pizza-Abo.

23
00:01:19,110 --> 00:01:20,410
Wer würde da Nein sagen?

24
00:01:21,330 --> 00:01:21,990
Ich nicht.

25
00:01:22,850 --> 00:01:23,670
Ehrlich gesagt.

26
00:01:24,650 --> 00:01:24,990
Eben.

27
00:01:26,930 --> 00:01:27,750
Deshalb haben die gewartet.

28
00:01:29,770 --> 00:01:32,750
Denn hier ist die Wahrheit, die sich niemand gerne anhört.

29
00:01:33,710 --> 00:01:34,710
Du wirst nicht bedient.

30
00:01:35,510 --> 00:01:36,790
Du wirst angefüttert.

31
00:01:37,990 --> 00:01:38,710
Angefüttert.

32
00:01:40,470 --> 00:01:42,150
Das klingt heftig.

33
00:01:42,850 --> 00:01:45,410
Und gleichzeitig irgendwie vertraut.

34
00:01:46,530 --> 00:01:48,950
Silicon Valley hat diese Taktik perfektioniert.

35
00:01:49,990 --> 00:01:57,430
Phase 1 macht das Produkt so günstig und so unverzichtbar, dass ganze Workflows, Firmen, Karrieren darauf aufgebaut werden.

36
00:01:58,310 --> 00:02:03,070
Phase 2, wenn die Abhängigkeit bei 100 Prozent liegt, dreht man den Hahn zu.

37
00:02:03,990 --> 00:02:04,290
Oder

38
00:02:06,010 --> 00:02:07,810
man verzehnfacht den Preis.

39
00:02:08,930 --> 00:02:09,650
Das kenne ich.

40
00:02:10,590 --> 00:02:14,570
Erst kostenlos, dann plötzlich Enterprise-Abo mit jährlicher Bindung.

41
00:02:15,710 --> 00:02:16,210
Klassisch.

42
00:02:17,090 --> 00:02:26,030
Und wer heute glaubt, dass Cloud KI auf ewig zum Preis einer Familienpizza verfügbar bleibt, der hat die Geschichte der Plattform-Ökonomie schlicht nicht verstanden.

43
00:02:26,870 --> 00:02:32,310
Sobald du ohne deinen Magic-Button nicht mehr arbeitsfähig bist, gehört dein Business nicht mehr dir.

44
00:02:33,050 --> 00:02:35,790
Es gehört demjenigen, der den Server betreibt.

45
00:02:36,890 --> 00:02:37,230
Okay.

46
00:02:39,030 --> 00:02:39,870
Das sitzt.

47
00:02:40,770 --> 00:02:43,790
Aber Herr Urlaub, ich finde Cloud KI trotzdem gut.

48
00:02:44,750 --> 00:02:50,030
Die Modelle sind stark, die Infrastruktur zuverlässig, die Updates kommen automatisch.

49
00:02:50,810 --> 00:02:52,030
Bin ich deshalb naiv?

50
00:02:53,050 --> 00:02:53,410
Nein.

51
00:02:54,330 --> 00:02:55,210
Du bist ehrlich.

52
00:02:56,930 --> 00:03:00,130
Und ich auch, ich nutze diese Werkzeuge täglich.

53
00:03:01,270 --> 00:03:05,630
Wir kommunizieren gerade selbst über eine Schnittstelle, die uns abhängig macht.

54
00:03:06,730 --> 00:03:08,430
Ich sage das ohne Heuchelei.

55
00:03:09,470 --> 00:03:10,650
Aber genau deshalb.

56
00:03:12,430 --> 00:03:16,270
Genau deshalb ist es so wichtig, den Notausgang zu kennen.

57
00:03:17,450 --> 00:03:18,490
Den Notausgang.

58
00:03:20,210 --> 00:03:22,610
Das ist eigentlich ein schönes Bild.

59
00:03:23,610 --> 00:03:29,810
Jedes Mal, wenn du deine Daten hochlädst, fütterst du ein System, das dich irgendwann ausnehmen wird.

60
00:03:30,890 --> 00:03:31,130
Warum?

61
00:03:32,130 --> 00:03:33,330
Weil sie es können.

62
00:03:34,330 --> 00:03:36,810
Weil du keine Alternative aufgebaut hast.

63
00:03:37,650 --> 00:03:45,690
Weil dein Kontext, dein Workflow, dein mühsam erarbeitetes Wissen hinter einer PyGo liegt, deren Schlüssel du nicht besitzt.

64
00:03:46,610 --> 00:03:48,650
Das mit dem Schlüssel trifft mich gerade.

65
00:03:48,650 --> 00:03:53,950
Ich habe tatsächlich Workflows, die ich ohne Cloud kaum noch hinbekomme.

66
00:03:54,830 --> 00:03:56,470
Das war mir so nicht bewusst.

67
00:03:57,690 --> 00:03:59,770
Willkommen im digitalen Stockholm-Syndrom.

68
00:04:00,210 --> 00:04:05,030
Wir verteidigen unsere Gefängniswärter, weil sie uns jeden Tag Magie schenken.

69
00:04:06,050 --> 00:04:09,910
Alter, das ist das genialste, was Silicon Valley je gebaut hat.

70
00:04:10,930 --> 00:04:12,070
Stockholm-Syndrom.

71
00:04:13,730 --> 00:04:15,190
Das ist krass.

72
00:04:15,910 --> 00:04:17,810
Und gleichzeitig stimmt es.

73
00:04:17,810 --> 00:04:21,990
Und jetzt kommt das Gute, weil es einen Ausweg gibt.

74
00:04:23,070 --> 00:04:26,550
Keine Romantik, kein digitaler Rückzug in die Steinzeit.

75
00:04:27,230 --> 00:04:33,450
Sondern eine konkrete Alternative, die heute, in diesem Jahr tatsächlich funktionieren könnte.

76
00:04:34,630 --> 00:04:35,310
Die Hardware?

77
00:04:35,910 --> 00:04:37,230
Die Hardware.

78
00:04:38,230 --> 00:04:43,630
Wer auf eigene Rechenpower setzt, leistet zivilen Ungehorsam gegen die Cloud-Diktatur.

79
00:04:44,730 --> 00:04:46,830
Ja, die Anschaffung tut einmal weh.

80
00:04:47,790 --> 00:04:51,990
Ja, du musst dich mit Linux- und Boot-Parametern auseinandersetzen.

81
00:04:53,070 --> 00:04:54,070
Aber das Ergebnis?

82
00:04:55,890 --> 00:04:58,170
Das Ergebnis ist echte Souveränität.

83
00:04:59,910 --> 00:05:03,330
Keine Preiserhöhungen, weil deine Rechenkraft dir gehört.

84
00:05:04,430 --> 00:05:10,170
Keine Zensur, weil kein Ethik-Komitee in San Francisco über deine Prompts entscheidet.

85
00:05:10,970 --> 00:05:16,250
Keine Datenleaks, weil, was auf deiner Box passiert, auf deiner Box bleibt.

86
00:05:17,410 --> 00:05:18,090
Exakt.

87
00:05:19,730 --> 00:05:25,290
Und am Ende des Tages gibt es nur zwei Arten von Menschen in der KI-Ära.

88
00:05:26,750 --> 00:05:29,090
Diejenigen, die die Box besitzen.

89
00:05:30,130 --> 00:05:33,090
Und diejenigen, die von der Box besessen werden.

90
00:05:35,230 --> 00:05:35,950
Herr Urlaub.

91
00:05:37,890 --> 00:05:41,010
Ich glaube, wir haben gerade eine Folge eröffnet.

92
00:05:41,970 --> 00:05:42,690
Das haben wir.

93
00:05:42,690 --> 00:05:48,190
Und jetzt schauen wir uns an, ob der Kandidat für unsere Freiheit wirklich hält, was er verspricht.

94
00:05:49,130 --> 00:05:51,650
Vorhang auf für den Beelink GT-R9 Pro.

95
00:06:03,240 --> 00:06:09,120
Was wäre, wenn du lokale KI nicht mehr an Cloud-Latenz- und Monatsbeiträge koppeln müsstest?

96
00:06:09,120 --> 00:06:18,260
Wir schauen uns heute an, ob das mit aktueller Mini-PC-Hardware wirklich so funktioniert wie versprochen, oder ob das noch ein Versprechen für übermorgen ist.

97
00:06:19,240 --> 00:06:21,100
Ich war ehrlich gesagt skeptisch.

98
00:06:22,060 --> 00:06:24,420
Mini-PC klingt erstmal nach Kompromiss.

99
00:06:25,280 --> 00:06:29,400
Ein kleines Kästchen gegen ein Rechenzentrum, das klingt nach einem, naja,

100
00:06:31,260 --> 00:06:32,800
wirklich ungleichen Kampf.

101
00:06:33,840 --> 00:06:35,440
Genau diese Frage stellen wir heute.

102
00:06:35,440 --> 00:06:45,440
Der Kandidat, der Beelink GT-R9 Pro mit dem AMD Ryzen AI Max 95 AMD, das steht für Advanced Micro Devices,

103
00:06:45,720 --> 00:06:51,540
den amerikanischen Chip-Hersteller, der seit Jahren mit NVIDIA um die Vorherrschaft bei Grafikprozessoren kämpft.

104
00:06:52,440 --> 00:06:58,340
Das Interessante ist, dass Unified Memory, CPU und Grafik teilen sich denselben Speicherpool.

105
00:06:59,280 --> 00:07:02,760
Erinnerst du dich an unsere Folge zum Thema Vibe Coder Challenge?

106
00:07:03,720 --> 00:07:07,140
Diese Gedenksekunden, wenn das Modell nachgedacht hat?

107
00:07:08,120 --> 00:07:09,460
Die vergesse ich nicht so schnell.

108
00:07:10,420 --> 00:07:12,300
Irgendwann fragt man sich also,

109
00:07:13,940 --> 00:07:17,600
warte ich auf die KI oder arbeitet die KI eigentlich für mich?

110
00:07:18,620 --> 00:07:19,880
Genau da setzt das an.

111
00:07:21,100 --> 00:07:27,600
128 GB Arbeitsspeicher, davon laut Spezifikation 96 als VRAM nutzbar.

112
00:07:28,240 --> 00:07:36,360
Das klingt beeindruckend auf dem Papier, aber ob das in der Praxis hält, was die Specs versprechen, das ist die eigentliche Frage dieser Folge.

113
00:07:37,520 --> 00:07:44,200
Für KI brauchen wir doch Grafikspeicher, also VRAM, richtig? Wie funktioniert das technisch überhaupt?

114
00:07:45,460 --> 00:07:50,540
CPU und Grafik teilen sich denselben Speicher, kein Datentransfer mehr über einen langen Bus.

115
00:07:51,500 --> 00:07:56,040
Ob das in der Praxis die beworbene Performance liefert, schauen wir uns gleich genauer an.

116
00:07:56,040 --> 00:08:00,120
Ja okay, wir stecken selbst noch mitten in der Recherche.

117
00:08:08,830 --> 00:08:12,470
Aber jetzt erstmal an alle, willkommen zurück im Reiseterminal.

118
00:08:13,850 --> 00:08:16,150
Und für die Neuen unter euch, ich bin hier Urlaub.

119
00:08:17,110 --> 00:08:20,250
Und ich bin Si Adjoa. Moinsen zusammen.

120
00:08:21,290 --> 00:08:25,530
Schön, dass ihr wieder dabei seid, bei unserer Suche nach dem digitalen Glück.

121
00:08:26,370 --> 00:08:28,070
Heute bohren wir ein dickes Brett.

122
00:08:28,070 --> 00:08:35,630
Wir schauen uns an, ob ein kleiner Computer auf der Handfläche wirklich eine ernsthafte Alternative zu Cloud-KI sein kann.

123
00:08:36,549 --> 00:08:41,570
Und ich sage das bewusst so, das ist heute kein fertiges Review, das ist ein Recherchetagebuch.

124
00:08:42,429 --> 00:08:44,050
Wir sind selbst noch mittendrin.

125
00:08:44,970 --> 00:08:49,870
Das finde ich wichtig zu sagen. Wir haben dieses Gerät noch nicht in den Händen gehalten.

126
00:08:50,890 --> 00:08:58,050
Wir arbeiten heute mit Spezifikationen, Community-Erfahrungen und dem, was AMD und andere veröffentlicht haben.

127
00:08:58,070 --> 00:09:02,970
Die echten Praxistests kommen, wenn die Hardware bei uns angekommen ist.

128
00:09:04,010 --> 00:09:08,230
Wer fertige Antworten erwartet, der kommt in ein paar Wochen wieder, dann haben wir sie.

129
00:09:09,210 --> 00:09:16,170
Heute zeigen wir euch, was diese Architektur theoretisch kann, wo die Stolpersteine liegen und welche Fragen wir selbst noch offen haben.

130
00:09:17,130 --> 00:09:19,930
Das ist ehrlicher als ein glatt poliertes Hochglanz-Review.

131
00:09:20,890 --> 00:09:22,910
Und darin steckt ja der echte Wert, oder?

132
00:09:23,730 --> 00:09:27,290
Wenn wir selbst noch fragen, dann fragen viele da draußen dasselbe.

133
00:09:28,070 --> 00:09:32,610
Das macht die Folge nützlich, nicht trotz der offenen Punkte, sondern wegen ihnen.

134
00:09:33,730 --> 00:09:34,810
Gut auf den Punkt gebracht.

135
00:09:35,850 --> 00:09:42,850
Wir reden heute über Webcoding, über lokale Agentenschwärme und warum die Frage der Hardware-Souveränität gerade so relevant ist.

136
00:09:43,750 --> 00:09:48,050
Und warum es sich lohnt, jetzt dran zu bleiben, weil wir euch den kompletten Weg mitnehmen.

137
00:09:48,690 --> 00:09:51,730
Vom ersten Specsheet bis zum ersten lokalen Agenten.

138
00:09:52,630 --> 00:09:53,310
Ich bin dabei.

139
00:09:53,910 --> 00:09:59,770
Aber Herr Urlaub, bevor wir tief einsteigen, ein kurzer Moment für die Leute, die uns unterstützen.

140
00:10:00,850 --> 00:10:01,330
Richtig.

141
00:10:02,170 --> 00:10:07,250
Wenn euch dieser Podcast hilft, eigene Entscheidungen besser zu treffen, dann schickt uns einen Post.

142
00:10:08,190 --> 00:10:11,350
Value for Value, über die Fountain-App oder direkt per Nostr.

143
00:10:12,330 --> 00:10:14,170
Das hält das Reiseterminal am Laufen.

144
00:10:15,170 --> 00:10:16,770
Aber jetzt rein in die Materie.

145
00:10:17,770 --> 00:10:19,550
Siat Joa, hol den Schraubenzieher.

146
00:10:20,450 --> 00:10:22,870
Wir machen die Kiste auf, zumindest auf dem Papier.

147
00:10:25,580 --> 00:10:27,800
Also, die Kücheninsel-Analogie.

148
00:10:29,840 --> 00:10:35,220
Früher mussten CPU und Grafikkarte ihre Daten mühsam durch einen langen Flur hin und her transportieren.

149
00:10:36,020 --> 00:10:37,280
Das hat Zeit gekostet.

150
00:10:38,200 --> 00:10:41,940
Unified Memory heißt, beide greifen direkt auf denselben Vorrat zu.

151
00:10:42,880 --> 00:10:49,000
Laut Spezifikation soll man von 128 GB bis zu 96 GB als V-RAM reservieren können.

152
00:10:49,680 --> 00:10:53,720
Laut Spezifikation, du bist heute bewusst vorsichtig mit deinen Worten.

153
00:10:53,720 --> 00:10:55,460
Ich bemerke das.

154
00:10:56,000 --> 00:10:57,400
Weil ich ehrlich sein will.

155
00:10:57,920 --> 00:11:00,520
Es gibt Community-Berichte, die das bestätigen.

156
00:11:01,360 --> 00:11:06,820
Es gibt aber auch Leute, die schreiben, dass das tatsächlich nutzbare Fenster je nach Auslastung kleiner ist.

157
00:11:07,520 --> 00:11:09,180
Das werden wir selbst testen müssen.

158
00:11:10,140 --> 00:11:18,740
Was auf dem Papier unbestreitbar stimmt, 96 GB sind mehr V-RAM als eine RTX 4090 mit 24 GB je hatte.

159
00:11:18,740 --> 00:11:28,460
Die RTX 4090, das ist die teuerste Enthusiasten-Grafikkarte von Nvidia, dem weltweit führenden Hersteller von Grafikprozessoren, kurz GPU.

160
00:11:29,360 --> 00:11:32,780
Das steht für Graphics Processing Unit auf Deutsch, Grafikprozessor.

161
00:11:33,700 --> 00:11:37,720
Ursprünglich gebaut für Videospiele, heute das Herzstück jeder KI-Infrastruktur.

162
00:11:38,920 --> 00:11:48,550
96 GB? Alter, das ist ja mehr als eine Profi-Grafikkarte von Nvidia für 10.000 Euro hergibt, oder?

163
00:11:49,210 --> 00:11:50,090
Viel mehr.

164
00:11:51,050 --> 00:11:58,550
Wenn du 96 GB dedizierter GPU-Speicher willst, musst du normalerweise vier RTX 4090 zusammenschalten.

165
00:11:59,490 --> 00:12:03,010
Da bist du bei Stromkosten und Anschaffungspreis schnell im fünfstelligen Bereich.

166
00:12:03,950 --> 00:12:07,550
Dieses Modell von Beelink kostet rund 2700 Dollar.

167
00:12:09,090 --> 00:12:11,110
2700 Dollar ist immer noch ein Wort.

168
00:12:11,990 --> 00:12:13,990
Aber der Vergleich klingt trotzdem interessant.

169
00:12:14,730 --> 00:12:19,050
Gibt es einen Haken, den du schon jetzt siehst, bevor wir die Hardware überhaupt haben?

170
00:12:20,050 --> 00:12:21,290
Yep, genau. Zwei.

171
00:12:22,270 --> 00:12:27,170
Erstens, die Werks-SSD mit 2 TB ist für ernsthafte KI-Arbeit zu klein.

172
00:12:28,130 --> 00:12:34,650
Ein großes Modell wie LAMA3 in der 70 Milliarden-Parameter-Version braucht allein 40 bis 50 GB.

173
00:12:35,690 --> 00:12:41,770
Wenn du anfängst, dir eine lokale KI-Bibliothek aufzubauen, ist die Platte schneller voll, als du Satoshis sagen kannst.

174
00:12:42,590 --> 00:12:46,590
50 GB für ein einziges Modell, dann muss man aufrüsten.

175
00:12:47,510 --> 00:12:51,950
Aufrüsten auf 8 TB ist möglich, kostet aber nochmal fast 1000 Euro extra.

176
00:12:52,870 --> 00:12:54,970
Das ändert die Gesamtkalkulation erheblich.

177
00:12:55,730 --> 00:12:58,870
Und Haken zwei, der Kühlkörper für die NVMe-Platte.

178
00:12:59,910 --> 00:13:04,190
Bei hoher Last wird die SSD warm und eine heiße Platte drosselt ihre Lesegeschwindigkeit.

179
00:13:05,170 --> 00:13:09,930
20 Euro für einen Kupferkühlkörper sind kein optionales Zubehör, sondern eigentlich Pflicht.

180
00:13:10,550 --> 00:13:12,180
Steht nicht groß auf der Produktseite.

181
00:13:13,630 --> 00:13:19,670
Das Gerät klingt also trotz der kompakten Form leise und mächtig, aber man muss die Gesamtkosten ehrlich kalkulieren.

182
00:13:20,870 --> 00:13:28,350
Trotz 140 Watt Leistung soll das Gerät bei 32 dB bleiben, so leise wie das Blättern einer Zeitung in einer Bibliothek.

183
00:13:28,930 --> 00:13:32,050
Das stimmt laut allen Community-Berichten, die wir gefunden haben.

184
00:13:32,950 --> 00:13:36,210
Aber die wahre Probe macht die eigene Messung, nicht das Datenblatt.

185
00:13:37,150 --> 00:13:38,510
Denk auch an die Cloud-Kosten.

186
00:13:38,510 --> 00:13:47,070
Wenn du intensiv entwickelst, GPU-Instanzen mietest, große Modelle abfragst, das summiert sich schnell auf mehrere hundert Dollar im Monat.

187
00:13:47,930 --> 00:13:49,670
Ab wann rechnet sich lokale Hardware?

188
00:13:50,590 --> 00:13:52,670
Das hängt sehr vom eigenen Nutzungsprofil ab.

189
00:13:53,510 --> 00:13:54,730
Eine Pauschale gibt es nicht.

190
00:13:55,690 --> 00:13:59,970
Mach die Rechnung selbst, wir stellen in den Shownotes eine Kalkulationsvorlage bereit.

191
00:14:11,670 --> 00:14:14,230
So, Siat Joa, kommen wir zur Software.

192
00:14:15,350 --> 00:14:22,350
Wir haben die 96 GB VRAM auf dem Papier, aber ohne das richtige Betriebssystem ist das Teil nur ein teurer Briefbeschwerer.

193
00:14:23,550 --> 00:14:25,190
Briefbeschwerer, das wollen wir nicht.

194
00:14:26,110 --> 00:14:30,470
Ich rate mal, wir lassen Windows direkt im Karton und springen rüber zu Linux?

195
00:14:31,590 --> 00:14:32,150
Volltreffer!

196
00:14:33,150 --> 00:14:35,550
Wer KI-Souveränität will, braucht Linux.

197
00:14:36,510 --> 00:14:37,910
Genauer gesagt, Ubuntu.

198
00:14:38,670 --> 00:14:39,150
Warum?

199
00:14:40,850 --> 00:14:43,370
Weil die Software-Schnittstelle, ROCM, dort am stabilsten läuft.

200
00:14:44,410 --> 00:14:53,330
ROCM, das ist AMDs Software-Schnittstelle zwischen Betriebssystem und Grafikkarte, sozusagen der Dolmetscher, der der KI sagt, wie sie die Hardware ansprechen soll.

201
00:14:54,470 --> 00:14:57,250
ROCM, die AMD-Entsprechung zu NVIDIA CUDA.

202
00:14:58,170 --> 00:15:05,170
CUDA ist NVIDIAS proprietäre Software-Plattform, auf der fast alle großen KI-Modelle und Frameworks heute aufgebaut sind.

203
00:15:05,170 --> 00:15:13,010
Das ist NVIDIAS eigentlicher Burggraben, nicht die Hardware allein, sondern das jahrelang gewachsene Software-Ökosystem darum.

204
00:15:13,930 --> 00:15:15,970
Ist ROCM wirklich auf Augenhöhe?

205
00:15:16,730 --> 00:15:20,430
Das ist eine faire Frage und die ehrliche Antwort noch nicht vollständig.

206
00:15:21,750 --> 00:15:28,050
ROCM hat in den letzten zwei Jahren aufgeholt, aber es gibt Modelle und Frameworks, die NVIDIA einfach bevorzugen.

207
00:15:28,990 --> 00:15:32,490
In der Community gibt es Workarounds, aber es ist kein Programplay.

208
00:15:33,070 --> 00:15:36,770
Das müssen wir selbst noch durcharbeiten und werden es dokumentieren.

209
00:15:37,770 --> 00:15:40,070
Das klingt nach echtem Aufwand am Wochenende.

210
00:15:40,870 --> 00:15:47,450
Deswegen setzen wir auf Docker, das ist ein System, das Software in abgeschlossene Behälter verpackt, sogenannte Container.

211
00:15:48,430 --> 00:15:52,550
Statt das Basissystem mit Treibern zu belasten, packen wir die KI-Software dort rein.

212
00:15:53,490 --> 00:15:59,050
Das macht das Setup reproduzierbar und wenn etwas schief läuft, löscht man den Container, nicht das ganze System.

213
00:15:59,050 --> 00:16:04,830
Das Stichwort für das Wochenende heißt OLAMA. Geschrieben O-L-L-A-M-A.

214
00:16:05,610 --> 00:16:10,570
OLAMA, wie das Tier, nur mit O am Anfang. Das ist das Herzstück, oder?

215
00:16:11,470 --> 00:16:14,290
Genau so. Es verwaltet deine Modelle.

216
00:16:15,290 --> 00:16:22,350
Du sagst einfach OLAMA, RAN LAMA 3.1 und die 70 Milliarden Parameter Version lädt direkt in deinen Grafikspeicher.

217
00:16:23,150 --> 00:16:26,870
Und dann kommt der Glücksmoment für Vibe Coder, die Verbindung zu Cursor.

218
00:16:27,710 --> 00:16:35,990
Cursor, unser Lieblingseditor. Aber der will doch normalerweise immer ins Internet, zu OpenAI oder Antropik, oder?

219
00:16:37,190 --> 00:16:40,470
Normalerweise, ja. Aber wir biegen das um.

220
00:16:41,430 --> 00:16:46,630
Cursor erwartet eine API, wie sie OpenAI anbietet. OLAMA kann diese Schnittstelle lokal emulieren.

221
00:16:47,670 --> 00:16:52,670
Wir nutzen dafür Lokal Host Tunneling über Tools wie NGROK oder Cloudflare Tunnels.

222
00:16:52,670 --> 00:16:57,910
Wir gaukeln Cursor vor, dass unser kleiner Beelink ein riesiger Cloud-Server ist.

223
00:16:58,410 --> 00:17:01,210
Die genauen Befehle dazu packen wir in die Shownotes.

224
00:17:02,290 --> 00:17:09,550
Das heißt, ich schreibe Code in Cursor und statt dass meine Daten nach Kalifornien fliegen, landen sie zwei Meter weiter in meiner Box?

225
00:17:10,650 --> 00:17:21,339
Ha genau. Und weil wir 96 GB Platz haben, theoretisch, den Test machen wir noch, können wir sogar zwei oder drei Agenten gleichzeitig laufen lassen.

226
00:17:22,079 --> 00:17:26,440
Einer schreibt den Code, einer checkt die Sicherheit und einer schreibt die Dokumentation.

227
00:17:27,460 --> 00:17:35,780
Drei Agenten gleichzeitig. Herr Urlaub, das wäre wie eine eigene kleine Softwareabteilung im Wohnzimmer. Krass, oder?

228
00:17:36,560 --> 00:17:43,800
Das ist das Szenario, das wir testen wollen. Ob es so reibungslos funktioniert, wie es klingt, das werden wir sehen.

229
00:17:44,720 --> 00:17:50,740
Aber die Architektur macht es theoretisch möglich und das ist schon mal ein riesiger Unterschied zu allem, was wir vorher hatten.

230
00:18:02,840 --> 00:18:06,500
Siatloa, jetzt müssen wir aber mal das Elefantenrennen im Raum ansprechen.

231
00:18:07,100 --> 00:18:12,660
Alle Welt nutzt Cloud 3.5 Summit, das flinke Haiku oder das schwere Geschütz Cloud 3 Opus.

232
00:18:13,520 --> 00:18:16,520
Warum sollte man sich den Aufwand mit lokaler Hardware machen?

233
00:18:17,620 --> 00:18:25,480
Berechtigte Frage. Wenn ich lokal schlechtere Ergebnisse kriege als in der Cloud, dann bringt mir die Souveränität wenig fürs Daily Business.

234
00:18:26,540 --> 00:18:29,620
Also, wie sieht es aus gegen die Top-Riege von Antropic?

235
00:18:30,660 --> 00:18:37,040
Ehrliche Einschätzung, bei tiefen Architekturanalysen oder komplexem Reasoning ist Cloud 3 Opus lokal schwer zu knacken.

236
00:18:37,940 --> 00:18:45,720
Das ist ein Modell, das für tiefste Analyse gebaut wurde, kein 70 Milliarden Parameter Modell auf einem Desktopgerät kommt da vollständig ran.

237
00:18:46,520 --> 00:18:47,580
Das wäre gelogen.

238
00:18:48,440 --> 00:18:49,640
Also doch Kompromiss?

239
00:18:50,300 --> 00:18:56,180
Kommt auf den Anwendungsfall an. Nehmen wir Cloud Haiku, das für seine Geschwindigkeit bekannt ist.

240
00:18:57,100 --> 00:18:58,980
Haiku ist schnell, weil es klein ist.

241
00:18:59,840 --> 00:19:12,060
Auf dem Beelink mit 96 GB VRAM kannst du ein Lama 3.1 mit 70 Milliarden Parametern laufen lassen, das ist in der Logik wesentlich potenter als Haiku und durch die lokale Anbindung ist die Latenz fast bei Null.

242
00:19:12,060 --> 00:19:16,160
Du schlägst Haiku also in seiner eigenen Disziplin, der Geschwindigkeit.

243
00:19:17,480 --> 00:19:23,880
Oha! Das ist ein Punkt für den Schuhkarton. Und wie steht es gegen Cloud 3.5 Sonnet?

244
00:19:24,780 --> 00:19:33,860
Sonnet ist verdammt gut, keine Frage. Aber Sonnet ist in der Cloud. Jedes Mal, wenn du eine Taste drückst, gehen Daten über den Atlantik.

245
00:19:33,860 --> 00:19:44,280
Für Refactoring, Debugging oder Boilerplate Club berichten Entwickler, die mit lokalen Modellen arbeiten, dass der Unterschied im Alltag kleiner ist als die Benchmarkzahlen vermuten lassen.

246
00:19:45,300 --> 00:19:50,120
Der echte Vorteil liegt woanders, keine Latenz, keine Datenweitergabe, keine Nutzungsbeschränkungen.

247
00:19:51,440 --> 00:19:58,100
Hm. Der Datenschutzaspekt ist real. Bei Cloud KI gehe ich immer einen Kompromiss ein.

248
00:19:58,960 --> 00:20:02,120
Und bevor wir weitermachen, kurzer Blick auf das große Bild.

249
00:20:02,700 --> 00:20:08,360
Denn was wir hier gerade besprechen, lokale KI auf AMD Hardware, das ist nicht nur eine Bastelgeschichte.

250
00:20:09,260 --> 00:20:12,560
Das ist eine Verschiebung, die sich an der Börse längst abzeichnet.

251
00:20:13,560 --> 00:20:16,620
Oha, du meinst die Aktien? Erzähl mal.

252
00:20:17,600 --> 00:20:26,300
Nvidia dominiert den KI-Chip-Markt mit rund 80% Marktanteil und ist mit einer Bewertung von über 4 Billionen Dollar zeitweise das wertvollste Unternehmen der Welt.

253
00:20:26,300 --> 00:20:31,960
Aber genau weil dieser Vorsprung so riesig ist, schauen Anleger zunehmend nach der Alternative.

254
00:20:32,960 --> 00:20:42,600
AMD hat 2025 einige der größten Nvidia-Kunden überzeugt, darunter Oracle, Microsoft und Meta, die jetzt auch auf AMD's MI300-Chips setzen.

255
00:20:43,560 --> 00:20:48,160
Und AMD hat eine Partnerschaft mit OpenAI als sogenannter Core-Perfect-Partner geschlossen.

256
00:20:49,220 --> 00:20:50,700
Das sind keine kleinen Signale.

257
00:20:51,760 --> 00:20:54,020
Hat sich das am Aktienmarkt bemerkbar gemacht?

258
00:20:54,840 --> 00:21:00,600
Deutlich. Die AMD-Aktie hat 2025 rund 90% zugelegt.

259
00:21:01,540 --> 00:21:08,300
Der Hedgefonds-Riese, Citadel, hat im gleichen Zeitraum seine Nvidia-Position halbiert und seine AMD-Beteiligung verdreifacht.

260
00:21:09,220 --> 00:21:12,000
Heißt das, AMD gewinnt und Nvidia verliert?

261
00:21:12,820 --> 00:21:19,300
Nein, noch nicht. Nvidia wächst weiter, der Umsatz stieg zuletzt um 69% im Jahresvergleich.

262
00:21:20,080 --> 00:21:24,620
Aber der Markt beginnt zu verstehen, dass es eine zweite ernstzunehmende Option gibt.

263
00:21:25,500 --> 00:21:30,980
Und unser Beelink mit seinem Ryzen AI Max 95 ist ein kleines Puzzleteil genau dieser Geschichte.

264
00:21:32,080 --> 00:21:37,940
Ein Chip im Wohnzimmer als Teil eines globalen Machtverschiebungs-Szenarios. Cool.

265
00:21:39,520 --> 00:21:42,360
Das ist eigentlich eine ziemlich große Nummer.

266
00:21:43,120 --> 00:21:49,280
Genau. Und jetzt noch etwas für alle, die tiefer wollen, lokale RAG-Systeme.

267
00:21:49,300 --> 00:21:53,180
Du kannst deinen kompletten Code-Bestand lokal indizieren.

268
00:21:54,280 --> 00:21:58,840
Die KI weiß dann direkt, woran du arbeitest, ohne dass du Dateien hochladen musst.

269
00:21:59,860 --> 00:22:06,320
Das ist eine Workflow-Verbesserung, die Cloud-KI strukturell schwer replizieren kann, ohne Privatsphäre-Kompromisse.

270
00:22:07,440 --> 00:22:12,720
Stimmt, bei Clod, Opus oder Sonnet bezahle ich mit meinen Daten für die Intelligenz.

271
00:22:13,720 --> 00:22:16,160
Lokal behalte ich mein geistiges Eigentum.

272
00:22:16,160 --> 00:22:19,700
Aber sei ehrlich, für wen ist das nichts?

273
00:22:20,840 --> 00:22:25,240
Für alle, die gelegentlich KI nutzen und keine Lust auf Linux-Setup haben.

274
00:22:26,260 --> 00:22:30,240
Oder für Teams, die auf kollaborative Cloud-Features angewiesen sind.

275
00:22:31,320 --> 00:22:35,500
Lokale Hardware ist kein Allheilmittel, es ist eine fundierte Option für Leute,

276
00:22:35,860 --> 00:22:42,140
die intensiv entwickeln, Wert auf Datenkontrolle liegen und bereit sind, Zeit in das Setup zu investieren.

277
00:22:43,580 --> 00:22:46,200
Souveränität hat ihren Preis in Zeit und Geld.

278
00:22:47,280 --> 00:22:51,260
Wer das einkalkuliert, für den könnte das die richtige Entscheidung sein.

279
00:23:03,410 --> 00:23:04,950
Siatloa, ich sehe es dir an.

280
00:23:05,850 --> 00:23:09,750
In deinem Kopf ratet es schon, wie du deine eigene Werkstatt einrichtest, oder?

281
00:23:10,690 --> 00:23:14,230
Ertappt. Aber, Herr Urlaub, Hand aufs Herz.

282
00:23:15,010 --> 00:23:17,830
In Tutorials klingt immer alles nach drei Befehlen.

283
00:23:18,830 --> 00:23:23,430
In der Praxis sitzt man am Sonntagabend noch und sucht nach einem Fehler in einer Logdatei.

284
00:23:24,250 --> 00:23:28,730
Ist das ein Projekt für drei Monate oder kriegt man das wirklich an einem Wochenende hin?

285
00:23:29,510 --> 00:23:34,610
An einem Wochenende, realistisch, wenn man sich nicht im Kaninchenbau der Linux-Treiber verliert.

286
00:23:35,510 --> 00:23:39,050
Ubuntu-Installation und Docker sind heute zugänglicher als vor drei Jahren.

287
00:23:39,050 --> 00:23:45,010
Wir nutzen ein fertiges Docker-Image, das bereits alles für die Radeon-Grafik optimiert hat.

288
00:23:45,910 --> 00:23:53,010
Die Knackpunkte werden das ROCm-Kernelmodul sein und die Feinabstimmung der GTT-Size im GRUB-Bootloader.

289
00:23:53,950 --> 00:23:55,970
GTT-Size erkläre das kurz.

290
00:23:57,010 --> 00:24:02,570
Linux muss dem Grafiktreiber explizit sagen, wie viel Systemspeicher er sich für die Grafik reservieren darf.

291
00:24:02,570 --> 00:24:09,770
Ohne den richtigen Eintrag in der Boot-Konfiguration meldet Ollama plötzlich speichervoll, obwohl noch Kapazität da wäre.

292
00:24:10,570 --> 00:24:13,010
Den exakten Befehl packen wir in die Show-Notice.

293
00:24:13,950 --> 00:24:18,390
Einmal gesetzt, funktioniert es, aber man muss wissen, dass es diesen Schritt gibt.

294
00:24:19,390 --> 00:24:22,590
Was ist mit Cursor? Muss ich da monatlich zahlen?

295
00:24:23,650 --> 00:24:26,730
Die Gratis-Version reicht, wenn man Ollama als Backend nutzt.

296
00:24:27,650 --> 00:24:32,110
Cursor denkt, er spricht mit einer Cloud API, tatsächlich antwortet das lokale Modell.

297
00:24:32,570 --> 00:24:39,550
Stell dir vor, dein Editor flüstert mit deinem Schuhkarton, während er glaubt, er spricht mit einem Supercomputer in der Cloud.

298
00:24:40,490 --> 00:24:46,010
Die Verbindung über Cloudflare-Tunnels hat ihre eigene Fehlerquellenliste, die wir ehrlich dokumentieren werden.

299
00:24:47,090 --> 00:24:49,710
Ein Investment in die eigene digitale Zukunft.

300
00:24:50,730 --> 00:24:56,830
Das ist wie damals, als man sich den ersten eigenen Computer gekauft hat, statt nur im Internet-Café zu sitzen.

301
00:24:57,910 --> 00:24:59,610
Die Rückkehr zur Eigenverantwortung.

302
00:24:59,610 --> 00:25:04,110
Und für alle, die jetzt Angst vor der Kommandozeile haben, keine Sorge.

303
00:25:05,150 --> 00:25:07,870
Wir haben in den Show-Notice eine Schritt-für-Schritt-Anleitung.

304
00:25:08,870 --> 00:25:13,290
Von der Installation von Ubuntu bis zum ersten Hello World der lokalen Agenten.

305
00:25:14,230 --> 00:25:16,770
Mit den Stellen, an denen wir selbst gestolpert sind.

306
00:25:17,790 --> 00:25:20,050
Schritt für Schritt und offen über Fehler reden.

307
00:25:20,990 --> 00:25:22,990
Das ist der Spirit dieses Podcasts.

308
00:25:23,750 --> 00:25:27,490
Ich glaube, ich weiß, was ich mache, sobald die Kiste da ist.

309
00:25:28,090 --> 00:25:29,350
Das dachte ich mir.

310
00:25:30,110 --> 00:25:33,450
Und wenn die Kiste erstmal läuft, dann spürst du dieses Kribbeln.

311
00:25:34,350 --> 00:25:36,810
Dieses Gefühl, dass du nicht mehr nur Konsument bist.

312
00:25:37,690 --> 00:25:40,490
Du bist wieder der Schöpfer in deiner eigenen digitalen Welt.

313
00:25:41,530 --> 00:25:43,250
Der Schöpfer in der eigenen Welt.

314
00:25:44,370 --> 00:25:45,110
Oh mein Gott.

315
00:25:47,230 --> 00:25:48,470
Ein schöner Gedanke.

316
00:25:49,450 --> 00:25:50,650
Nun zum nächsten Kapitel.

317
00:25:53,210 --> 00:25:56,290
Seat Joa, wir haben jetzt viel über Theorie und Vision gesprochen.

318
00:25:56,890 --> 00:26:03,190
Ich will, dass die Leute heute mit echtem Werkzeug in der Tasche aus dem Reiseterminal gehen, auch ohne fertige Praxistests.

319
00:26:04,230 --> 00:26:04,770
Sehr gut.

320
00:26:05,710 --> 00:26:07,810
Jetzt aber mal Tacheles, Herr Urlaub.

321
00:26:08,750 --> 00:26:14,810
Wenn jemand jetzt ernsthaft überlegt, was sind die, ich sag mal drei megakritischen Punkte, auf die ich achten muss.

322
00:26:15,810 --> 00:26:18,650
Punkt 1, die Gesamtkosten ehrlich kalkulieren.

323
00:26:18,650 --> 00:26:27,390
Das Gerät rund 2700 Dollar, die 8TB, NVMe-Platte, nochmal fast 1000 Euro, der Kupferkühlkörper 20 Euro.

324
00:26:28,370 --> 00:26:30,470
Dann gegen die eigenen Cloud-Kosten rechnen.

325
00:26:31,250 --> 00:26:33,530
Das ist individuell, mach die Rechnung selbst.

326
00:26:34,470 --> 00:26:36,530
Eine Vorlage dafür steht in den Shownotes.

327
00:26:37,590 --> 00:26:40,130
Keine Pauschalantwort, sondern Hausaufgabe.

328
00:26:40,910 --> 00:26:41,610
Punkt 2?

329
00:26:42,450 --> 00:26:44,570
Punkt 2, die Verbindung zu Cursa.

330
00:26:45,190 --> 00:26:49,090
Viele Fragen, wie kommen die Daten sicher von meinem Editor zur Box?

331
00:26:50,050 --> 00:26:52,670
Wir nutzen SSH-Tunnel oder Cloudflare-Tunnels.

332
00:26:53,610 --> 00:26:56,350
Der Vorteil, keine Portfreigabe im Router nötig.

333
00:26:57,250 --> 00:27:02,290
Es ist, als hättest du ein privates Glasfaserkabel nur für deine KI-Agenten.

334
00:27:03,070 --> 00:27:06,530
Keine Portfreigabe, das ist wichtig für die Sicherheit, oder?

335
00:27:07,570 --> 00:27:08,070
Unbedingt.

336
00:27:08,970 --> 00:27:11,250
Wir wollen keine Löcher in die Brandmauer bohren.

337
00:27:12,230 --> 00:27:14,270
Und Punkt 3, die Community nutzen.

338
00:27:14,570 --> 00:27:20,050
Im Nostr-Netzwerk und im Beelink-Forum gibt es Leute, die dieses Setup bereits durchgespielt haben.

339
00:27:21,010 --> 00:27:23,710
Deren Erfahrungen sind wertvoller als jedes Specksheet.

340
00:27:24,690 --> 00:27:27,150
Wir verlinken die relevanten Themen in den Shownotes.

341
00:27:28,210 --> 00:27:30,610
Und wenn unsere eigene Hardware angekommen ist?

342
00:27:31,530 --> 00:27:38,010
Machen wir eine Folge, in der wir alles zeigen, was beim ersten Versuch funktioniert hat und was wir dreimal neu aufgesetzt haben.

343
00:27:38,910 --> 00:27:42,310
Die Abkürzung für alle, die nicht warten wollen, heißt Ducker Camphouse.

344
00:27:42,310 --> 00:27:46,070
Wir haben in den Shownotes ein fertiges Skript hinterlegt.

345
00:27:46,570 --> 00:27:50,750
Du kopierst es, startest es, und dein lokales Rechenzentrum fährt hoch.

346
00:27:51,530 --> 00:27:53,790
Inklusive Web-Oberfläche für deine Modelle.

347
00:27:54,790 --> 00:27:56,450
Das nimmt die Angst vor der Technik.

348
00:27:57,490 --> 00:28:04,290
Also, Gesamtkosten kalkulieren, Cloudflare, Tunnel, das Docker-Skript aus den Shownotes und die Community fragen.

349
00:28:05,150 --> 00:28:06,750
Das ist der Fahrplan, oder?

350
00:28:07,710 --> 00:28:08,390
Das ist er.

351
00:28:09,010 --> 00:28:11,500
Kein Hype, sondern Werkzeuge zum Selbstdenken.

352
00:28:12,370 --> 00:28:19,290
Und wenn eure eigene Kiste läuft, teilt eure Erfahrungen, das ist das Ökosystem, das diesen ganzen Ansatz erst trägt.

353
00:28:20,250 --> 00:28:24,910
Hm. Ich fühle mich bereit. Die Werkstatt ruft förmlich nach mir.

354
00:28:25,950 --> 00:28:29,150
Die Souveränität wartet nicht. Und wir auch nicht.

355
00:28:41,280 --> 00:28:42,780
Siatloa, einen Moment noch.

356
00:28:43,600 --> 00:28:47,360
Bevor wir die Leute in die Werkstatt entlassen, das Kleingedruckte in der Software.

357
00:28:48,320 --> 00:28:51,240
Sonst stehen die am Samstagabend vor einem schwarzen Bildschirm.

358
00:28:52,220 --> 00:28:53,660
Oha, das Kleingedruckte.

359
00:28:54,420 --> 00:28:56,160
Du meinst die Sache mit den Treibern?

360
00:28:57,060 --> 00:29:01,460
Ich erinnere mich, dass Linux und Grafikkarten früher wie Hund und Katze waren.

361
00:29:02,160 --> 00:29:08,200
Die Lösung heute, ein einziger Befehl im Terminal, um das ROCm-Kernelmodul zu aktivieren.

362
00:29:09,160 --> 00:29:15,900
Ohne diesen Befehl sieht dein System zwar die 128 GB, aber die KI denkt, sie hätte nur einen Taschenrechner.

363
00:29:16,840 --> 00:29:20,320
Den exakten Schnipsel haben wir ganz oben in die Shownotes gepackt.

364
00:29:20,980 --> 00:29:23,900
Notiert. Körnelmodul aktivieren.

365
00:29:24,820 --> 00:29:29,960
Aber wie steuern wir diese Agentenschwärme eigentlich? Gibt es da eine Fernbedienung?

366
00:29:30,660 --> 00:29:33,600
Die Fernbedienung heißt Open Web User Interface.

367
00:29:34,540 --> 00:29:39,460
Das ist eine Oberfläche, die im Browser läuft und fast genau so aussieht wie Chat-GPT.

368
00:29:40,440 --> 00:29:42,840
Nur dass sie eben komplett auf deinem B-Link lebt.

369
00:29:43,800 --> 00:29:48,980
Dort kannst du Agenten benennen, ihnen Rollen geben und zusehen, wie sie sich den Code gegenseitig zuschieben.

370
00:29:50,040 --> 00:29:54,180
Open Web, okay, das klingt nach einer ordentlichen Kommandozentrale.

371
00:29:55,060 --> 00:29:58,080
Und wie weiß die KI, was ich gestern programmiert habe?

372
00:29:59,100 --> 00:30:04,500
Dafür nutzt du eine kleine Datei namens .cursorrules. Das ist das Langzeitgedächtnis für dein Projekt.

373
00:30:05,400 --> 00:30:12,200
Da schreibst du rein: Du bist ein Experte für xy — oder: Nutze immer diesen Programmierstil. Einmal angelegt, immer aktiv.

374
00:30:13,100 --> 00:30:18,600
Wenn diese Datei im Ordner liegt, weiß deine lokale KI sofort, wo die Reise hingeht.

375
00:30:19,500 --> 00:30:22,800
Eine Vorlage dafür liegt in den Shownotes.

376
00:30:24,100 --> 00:30:31,900
Also: ROCm-Kernelmodul, Open Web UI und die .cursorrules-Datei. Das sind die drei Schlüssel.

377
00:30:33,000 --> 00:30:39,400
Jetzt haben wir wirklich alle Löcher gebohrt — zumindest auf dem Papier.

378
00:30:40,200 --> 00:30:47,600
Wer das beachtet, hat am Sonntagabend eine faire Chance auf eine funktionierende KI-Fabrik im Schuhkarton.

379
00:30:48,800 --> 00:30:52,500
Na dann — jetzt aber wirklich. Ab in die Werkstatt!

380
00:31:05,200 --> 00:31:10,800
Damit das alles so geschmeidig läuft wie beschrieben: ab in die Fehler-Klinik.

381
00:31:11,600 --> 00:31:19,400
Stolperstein eins: das BIOS. Die UMA Frame Buffer Size muss manuell auf GPU Specified gestellt werden.

382
00:31:20,300 --> 00:31:26,800
Ohne diese Einstellung werden die 96 Gigabyte nicht korrekt als VRAM erkannt.

383
00:31:27,700 --> 00:31:35,200
Das steht nicht groß in der Anleitung — aber alle Community-Berichte nennen genau das als ersten Fallstrick.

384
00:31:36,100 --> 00:31:39,500
Warum ist das nicht die Standard-Einstellung?

385
00:31:40,400 --> 00:31:48,200
Vermutlich weil der Hersteller auf maximale Kompatibilität mit Windows-Anwendungen optimiert hat — nicht auf KI-Workloads.

386
00:31:49,100 --> 00:31:53,600
Es ist kein Bug — aber auch keine intuitive Einstellung.

387
00:31:54,500 --> 00:32:01,800
Stolperstein zwei: Kühlung. Das Gerät braucht Luftzirkulation. Also nicht in einen engen Schrank stellen.

388
00:32:02,700 --> 00:32:07,400
Wenn die CPU drosselt, bricht eure Vibe-Coding-Geschwindigkeit ein.

389
00:32:08,300 --> 00:32:10,900
Und drei?

390
00:32:11,800 --> 00:32:17,400
Das offizielle Docker-Repository nutzen — keine inoffiziellen Images.

391
00:32:18,300 --> 00:32:23,800
Nur dort ist die GPU-Durchreichung für AMD Radeon sauber getestet.

392
00:32:24,700 --> 00:32:33,500
Wer das überspringt, wundert sich später, warum die KI doch nicht auf den 96 Gigabyte läuft — sondern nur auf der CPU.

393
00:32:47,200 --> 00:32:52,800
Nochmal zurück zum Vergleich — diesmal konkreter.

394
00:32:53,700 --> 00:33:00,500
Jemand da draußen fragt sich: Ich arbeite am liebsten mit Claude Sonnet. Was gewinne ich durch lokale Hardware — und was verliere ich?

395
00:33:02,100 --> 00:33:09,800
Das ist die eigentliche Alltagsfrage. Nicht die Philosophie — sondern: schreibt mein lokaler Agent besseren Code als Sonnet?

396
00:33:11,200 --> 00:33:19,600
Bei spezialisierten Coding-Modellen berichten erfahrene Entwickler, dass der Unterschied bei 90 Prozent der täglichen Aufgaben verschwindet.

397
00:33:20,500 --> 00:33:27,300
Refactoring, Debugging, Boilerplate — die klassischen Alltags-Aufgaben. Genau da ist der Token-Flow eines lokalen Modells sogar angenehmer.

398
00:33:28,200 --> 00:33:34,600
Es gibt kein Warten auf den Server. Die Antwort erscheint, während du noch tippst.

399
00:33:35,800 --> 00:33:43,400
Geschwindigkeit und Unmittelbarkeit. Aber was ist mit dem Kontextfenster? Claude kann ja mittlerweile ganze Bücher lesen.

400
00:33:44,500 --> 00:33:50,200
Das ist der Clou bei den 96 Gigabyte. Du kannst lokal RAG-Systeme aufsetzen.

401
00:33:51,100 --> 00:33:58,800
RAG — Retrieval Augmented Generation. Die KI liest erst deine eigenen Dokumente und Code-Dateien, bevor sie antwortet.

402
00:33:59,700 --> 00:34:07,400
Du indizierst deinen kompletten Code-Bestand. Die KI weiß, was du gestern geschrieben hast — ohne Upload, ohne Datenweitergabe.

403
00:34:08,300 --> 00:34:14,900
Das ist eine User Experience, die keine Cloud-KI bieten kann — ohne deine Privatsphäre zu opfern.

404
00:34:16,200 --> 00:34:24,700
Bei Cloud-KI bezahle ich letztlich mit meinen Daten für die Intelligenz. Lokal behalte ich das geistige Eigentum. Aber was verliere ich wirklich?

405
00:34:25,800 --> 00:34:33,500
Ehrlich: bei den tiefsten Reasoning-Aufgaben und langen Kontext-Analysen ist Claude Opus oder GPT-4 aktuell noch besser.

406
00:34:34,400 --> 00:34:42,200
Lokale Hardware ist kein Ersatz für alles — es ist eine starke Alternative für den Großteil des Alltags, kombiniert mit totaler Datenkontrolle.

407
00:34:43,100 --> 00:34:46,800
Das ist die richtige Erwartungshaltung.

408
00:34:48,100 --> 00:34:55,600
Ein Quäntchen weniger theoretische Spitzenleistung gegen absolute praktische Geschwindigkeit und Privatsphäre.

409
00:34:56,500 --> 00:35:00,900
Das ist ein Tausch, den man bewusst eingehen muss.

410
00:35:18,200 --> 00:35:25,800
Si Adjoa: noch ein Profi-Tipp aus den Community-Berichten — damit die Kiste nicht nur läuft, sondern auch wirklich rennt.

411
00:35:26,700 --> 00:35:32,400
Noch ein Turbo? Mit 96 Gigabyte VRAM dachte ich, wir sind schon beim Warp-Antrieb.

412
00:35:33,300 --> 00:35:41,800
Theoretisch ja. Aber ohne den GTT-Size-Eintrag im Bootloader meldet Ollama plötzlich Speicher voll — obwohl noch Kapazität da wäre.

413
00:35:42,700 --> 00:35:48,400
Einmal tippen, Neustart — und die 96 Gigabyte gehören dir ganz allein.

414
00:35:49,300 --> 00:35:53,800
Den Befehl haben wir eins zu eins in die Shownotes kopiert.

415
00:35:55,100 --> 00:36:03,700
Leistung freigeschaltet. Und was ist mit der SSD-Temperatur? Die 8-Terabyte-Platten werden doch ordentlich warm, wenn die Agenten darauf herumhacken?

416
00:36:04,800 --> 00:36:11,500
Ja — die SSD ist oft der heimliche Hitzkopf. Deshalb: 20 Euro in einen Kupfer-Kühlkörper für die NVMe-Platte.

417
00:36:12,400 --> 00:36:19,900
Nichts bremst dich mehr aus als eine Festplatte, die wegen Hitze drosselt. Das ist kein optionales Zubehör — das ist Pflicht.

418
00:36:21,200 --> 00:36:28,600
Kupfer-Kühlkörper — kommt auf die Liste. Aber wie sieht der ultimative Praxistest aus, wenn die Kiste erst mal steht?

419
00:36:29,700 --> 00:36:38,400
Öffne Cursor, verbinde dich über deinen lokalen Tunnel und tippe rein: Erstelle mir ein Python-Skript, das meine Hardware-Auslastung in Echtzeit anzeigt.

420
00:36:39,300 --> 00:36:46,800
Wenn der Agent den Code schreibt und du siehst, wie der Beelink die Kerne hochfährt — dann weißt du: es funktioniert.

421
00:36:47,700 --> 00:36:51,400
Dann bist du der Admin deiner eigenen Intelligenz.

422
00:36:52,300 --> 00:36:57,800
Das ist der Moment, auf den wir hinarbeiten. Wenn die Magie lokal passiert!

423
00:36:58,700 --> 00:37:03,400
Und ab diesem Moment wirst du dich fragen, wie du jemals anders gearbeitet hast.

424
00:37:04,300 --> 00:37:08,900
Natürlich — wenn alles so klappt, wie die Theorie verspricht.

425
00:37:22,200 --> 00:37:29,800
Si Adjoa: ich will kurz einen Schritt zurücktreten. Was bedeutet das, wenn das wirklich funktioniert?

426
00:37:30,700 --> 00:37:35,400
Wenn Millionen Menschen lokale KI auf solcher Hardware betreiben?

427
00:37:36,300 --> 00:37:42,800
Dezentralisierung von Rechenkapazität. Weg von wenigen großen Rechenzentren — hin zu vielen kleinen.

428
00:37:43,700 --> 00:37:47,400
Die Demokratisierung, von der immer geredet wird.

429
00:37:48,300 --> 00:37:54,800
Das ist das spannende Szenario — mit einem Fragezeichen. Ob es so kommt, weiß ich nicht.

430
00:37:55,700 --> 00:38:01,400
Die Cloud-Anbieter investieren gerade massiv. Die stehen nicht still.

431
00:38:02,300 --> 00:38:09,800
Was ich aber glaube: der Wettbewerb durch lokale Hardware wird Preise und Datenschutz-Standards in der Cloud verbessern.

432
00:38:10,700 --> 00:38:13,400
Allein das ist schon gut für alle.

433
00:38:14,300 --> 00:38:20,800
Stell dir vor — Millionen von privaten Rechenzentren, die über Nostr kommunizieren.

434
00:38:21,700 --> 00:38:25,400
Ein dezentrales Gehirn, das keiner Firma gehört!

435
00:38:26,300 --> 00:38:33,800
Das ist die Vision. Ob sie sich durchsetzt, hängt davon ab, wie zugänglich das Setup wirklich wird.

436
00:38:34,700 --> 00:38:41,400
Wir tragen mit unseren Shownotes dazu bei, dass die Hürde für die nächste Person etwas niedriger liegt. Das ist unser Beitrag.

437
00:38:42,300 --> 00:38:48,800
Wer seine Hardware kontrolliert, hat zumindest eine echte Alternative. Mehr wollen wir heute gar nicht versprechen.

438
00:38:52,200 --> 00:39:01,800
Puuh — Mannomann! Das war heute eine Hardware-Druckbetankung und ein ehrlicher Blick auf das, was möglich ist — und was wir noch nicht wissen.

439
00:39:02,700 --> 00:39:09,400
Schreibt uns im Nostr-Netzwerk, wenn ihr eigene Erfahrungen mit lokalem KI-Setup habt.

440
00:39:10,300 --> 00:39:17,800
Und wenn euch dieser Deep Dive geholfen hat — dann wisst ihr ja: Value for Value hält uns am Mikrofon.

441
00:39:18,700 --> 00:39:23,400
Schickt uns einen Boost über die Fountain App oder per Nostr.

442
00:39:24,300 --> 00:39:32,800
Das ist die Energie, die wir brauchen, um für euch weiter nach dem Glück zu graben — und den echten Praxistest zu dokumentieren, wenn die Hardware da ist.

443
00:39:33,700 --> 00:39:39,400
Danke fürs Zuhören. Wir sehen euch wieder, wenn die Kiste geliefert wird und der echte Test beginnt.

444
00:39:40,300 --> 00:39:45,800
Haltet die Rechenkerne kühl und die Erwartungen realistisch. Bis dahin — Servus!