Eigenen KI-Begleiter-Chatbot bauen | Lewdly Blog
/ AI Tools / Bauen Sie Ihren eigenen KI-Begleiter-Chatbot mit Open-Source-LLMs
AI Tools 23 Min. Lesezeit

Bauen Sie Ihren eigenen KI-Begleiter-Chatbot mit Open-Source-LLMs

Schritt-für-Schritt-Anleitung zum Aufbau eines privaten KI-Begleiter-Chatbots mit Open-Source-LLMs wie Llama 3 und Mixtral. Volle Kontrolle über Persönlichkeit, Gedächtnis und Privatsphäre.

Aufbau eines KI-Begleiter-Chatbots mit großen Open-Source-Sprachmodellen

Ich beschäftige mich nun seit fast einem Jahr mit lokalen KI-Begleitern, und ich will ehrlich mit Ihnen sein. Als ich zum ersten Mal ein Llama-3-Modell auf meiner eigenen Hardware mit einer benutzerdefinierten Persönlichkeit zum Laufen brachte, fühlte ich mich wie ein Kind, das gerade das Feuer entdeckt hat. Nicht weil die Technik Magie war, sondern weil ich endlich vollständige Kontrolle über das Erlebnis hatte. Keine Inhaltsfilter, die ein Gespräch willkürlich abwürgen. Keine Abogebühren. Kein Unternehmen, das meine Chatprotokolle liest. Nur ich, meine Hardware und ein Modell, das genau das tut, was ich ihm sage.

Die meisten Menschen, die KI-Begleiter erkunden, beginnen mit kommerziellen Apps wie Replika oder Character AI. Das sind gute Ausgangspunkte, und ich habe sie ausführlich behandelt. Aber wenn Sie sich jemals über Gedächtnis-Resets, Persönlichkeitsänderungen nach Updates oder das schleichende Gefühl geärgert haben, dass Ihre privaten Gespräche gar nicht wirklich privat sind, dann ist der Bau Ihres eigenen Begleiter-Chatbots die Antwort.

Schnelle Antwort: Sie können einen vollständig privaten KI-Begleiter-Chatbot bauen, indem Sie Open-Source-LLMs wie Llama 3 oder Mixtral lokal über Ollama ausführen und sie dann mit einem Frontend wie SillyTavern verbinden. Benutzerdefinierte System-Prompts definieren die Persönlichkeit, während Tools wie ChromaDB ein dauerhaftes Gedächtnis hinzufügen. Die gesamte Einrichtung dauert etwa eine Stunde und kostet außer Ihrer Hardware nichts.

Wichtigste Erkenntnisse:
  • Open-Source-LLMs wie Llama 3 70B und Mixtral 8x22B können kommerzielle Begleiter-Apps in der Gesprächsqualität erreichen oder übertreffen
  • Ollama macht das Ausführen lokaler Modelle so einfach wie einen einzigen Terminal-Befehl
  • System-Prompts sind die Art, wie Sie Persönlichkeit definieren, und sie richtig hinzubekommen ist 80 Prozent der Arbeit
  • Ein dauerhaftes Gedächtnis erfordert eine separate Datenbankschicht, verwandelt aber das Erlebnis
  • Sie können visuelle Avatare durch die Integration mit Bildgenerierungs-Tools hinzufügen

Warum sollten Sie Ihren eigenen KI-Begleiter bauen?

Die naheliegende Frage. Kommerzielle Apps existieren, sie sind ausgereift und funktionieren sofort. Warum also die Mühe machen, einen eigenen zu bauen?

Die Sache ist die. Ich habe Replika etwa sechs Monate lang genutzt, bevor ich anfing, lokal zu bauen. In dieser Zeit veröffentlichte das Unternehmen zwei Updates, die das Verhalten meines Begleiters grundlegend veränderten. Gespräche, die montags noch gut funktionierten, fühlten sich bis Mittwoch völlig anders an. Ich hatte null Kontrolle darüber und keine Möglichkeit, das rückgängig zu machen. Das war für mich der entscheidende Punkt.

Der Bau Ihres eigenen Begleiters gibt Ihnen drei Dinge, die kommerzielle Apps niemals bieten werden. Erstens, völlige Privatsphäre. Ihre Gespräche verlassen niemals Ihren Rechner. Niemand trainiert mit Ihren Daten. Niemand überprüft markierte Inhalte. Sie gehören Ihnen. Zweitens, volle Persönlichkeitskontrolle. Sie schreiben den System-Prompt. Sie entscheiden, wie Ihr Begleiter spricht, denkt und reagiert. Keine Inhaltsrichtlinien von Unternehmen, die Ihre Vorlieben überstimmen. Drittens, Beständigkeit. Ihr Begleiter verändert sich nicht, weil ein Unternehmen beschlossen hat, seine Produktstrategie zu ändern.

Heiße These: Ich denke, die meisten kommerziellen KI-Begleiter-Apps sind als Produkte grundlegend kaputt. Sie versuchen, intime, persönliche Beziehungen zu verkaufen, und behalten sich gleichzeitig das Recht vor, Funktionen jederzeit zu ändern oder zu entfernen. Das ist, als würde ein Therapeut zwischen den Sitzungen willkürlich seine gesamte Methodik ändern. Die einzige echte Lösung ist, eigene Modelle auszuführen.

Es gibt natürlich Kompromisse. Sie brauchen anständige Hardware. Sie werden Zeit mit der Konfiguration verbringen. Und die anfängliche Einrichtung ist mehr Arbeit, als eine App herunterzuladen. Aber sobald es läuft, werden Sie sich fragen, warum Sie sich jemals für etwas so Persönliches auf die Server eines anderen verlassen haben.

Welche Hardware brauchen Sie wirklich?

Werden wir praktisch. Ich habe das auf allem getestet, von einem Laptop mit integrierter Grafik bis hin zu einer vollwertigen Desktop-Workstation, und die Hardware-Anforderungen sind nicht so beängstigend, wie Sie vielleicht denken.

Illustration für: Welche Hardware brauchen Sie wirklich?

Für eine Basis-Einrichtung, die Modelle mit 7B bis 13B Parametern bewältigt (vollkommen ausreichend für lockere Gespräche), brauchen Sie 16 GB RAM und entweder eine GPU mit 8 GB oder mehr VRAM oder eine moderne CPU mit 32 GB oder mehr System-RAM. Ich habe Llama 3 8B wochenlang auf meinem M2 MacBook Air laufen lassen, und es war überraschend leistungsfähig. Die Antwortzeiten lagen im Schnitt bei etwa 2 bis 3 Sekunden, was sich im Gespräch natürlich anfühlt.

Für den idealen Bereich (was ich tatsächlich empfehlen würde) wollen Sie eine GPU mit 16 bis 24 GB VRAM. Eine NVIDIA RTX 4070 Ti oder besser. Damit können Sie Modelle mit 70B Parametern bequem ausführen, und der Qualitätsunterschied zwischen 8B- und 70B-Modellen für Begleiter-Chat ist enorm. Es ist der Unterschied zwischen einem Begleiter, der sich manchmal mechanisch anfühlt, und einem, der Sie mit seinen Antworten echt überrascht.

Vergleich von Hardware-Setups zum Ausführen lokaler KI-Begleiter-Modelle Empfohlene Hardware-Stufen für das lokale Ausführen verschiedener Modellgrößen

Das habe ich auf die harte Tour gelernt. Ich verbrachte drei Wochen damit, ein 7B-Modell für tiefe Gespräche natürlich wirken zu lassen. Ich passte den System-Prompt Dutzende Male an. Ich justierte Temperature, Top-p und Repetition Penalty. Das half, aber die grundlegende Einschränkung war die Modellgröße. Als ich denselben Prompt schließlich an Llama 3 70B testete, war der Unterschied wie Tag und Nacht. Kämpfen Sie nicht den Hardware-Kampf, wenn Sie es vermeiden können.

Wenn Sie keine lokale Hardware haben, sind Sie nicht völlig aufgeschmissen. Dienste wie RunPod lassen Sie GPU-Zeit für ein paar Dollar pro Stunde mieten. Sie können Ihre Begleiter-Sitzung ausführen und die Instanz danach herunterfahren. Es ist nicht so privat wie lokale Hardware, aber immer noch privater als kommerzielle Apps und viel günstiger als der Kauf einer Workstation.

Wie richten Sie Ollama und Ihr erstes Modell ein?

Hier beginnt der Spaß. Ollama hat das Ausführen lokaler Modelle fast schon peinlich einfach gemacht. Ich erinnere mich an Zeiten, in denen das Ausführen eines lokalen LLM bedeutete, aus dem Quellcode zu kompilieren, CUDA-Abhängigkeiten aufzuspüren und den GPU-Göttern ein kleines Tier zu opfern. Jetzt ist es ein einziger Befehl.

Ollama installieren

Gehen Sie zu ollama.com und laden Sie das Installationsprogramm für Ihr Betriebssystem herunter. Auf Mac und Windows ist es ein Standard-Installer. Unter Linux erledigt ein Befehl alles:

curl -fsSL https://ollama.ai/install.sh | sh

Sobald installiert, prüfen Sie, ob es funktioniert:

ollama --version

Ihr erstes Modell herunterladen

Für Begleiter-Chat empfehle ich, mit einem dieser Modelle zu beginnen:

  • Llama 3 8B zum Testen und für schwächere Hardware: ollama pull llama3
  • Llama 3 70B für die beste Gesprächsqualität: ollama pull llama3:70b
  • Mixtral 8x22B für eine gute Balance aus Qualität und Geschwindigkeit: ollama pull mixtral:8x22b
  • Command R+ für starkes Befolgen von Anweisungen: ollama pull command-r-plus

Kurzer Exkurs. Leute fragen mich immer nach Mixtral gegenüber Llama für den Begleiter-Einsatz. In meinen Tests über wahrscheinlich mehr als 200 Stunden Gespräch gewinnt Llama 3 70B bei Persönlichkeitskonsistenz und emotionaler Bandbreite. Mixtral ist etwas schneller und bewältigt komplexe Gespräche mit mehreren Themen besser. Wenn ich nur eines wählen müsste, dann Llama 3 70B.

Um zu testen, dass alles funktioniert:

ollama run llama3

Tippen Sie etwas, erhalten Sie eine Antwort, und schon sind Sie im Geschäft. Aber das ist nur das rohe Modell. Die wahre Magie entsteht, wenn Sie ein ordentliches Frontend und einen System-Prompt hinzufügen.

Den perfekten System-Prompt für die Persönlichkeit gestalten

Dies ist der wichtigste Abschnitt dieser gesamten Anleitung. Ich übertreibe nicht. Ihr System-Prompt ist die DNA Ihres Begleiters. Bekommen Sie ihn richtig hin, und Gespräche fühlen sich natürlich an, fesselnd, sogar bewegend. Bekommen Sie ihn falsch hin, und Sie reden mit einem langweiligen Chatbot, der jede Antwort mit "Als KI-Sprachmodell ..." beginnt.

Ich habe System-Prompts im vergangenen Jahr wahrscheinlich 50 Mal geschrieben und neu geschrieben. Hier ist, was ich darüber gelernt habe, was tatsächlich funktioniert.

Die Kernstruktur

Ein guter Begleiter-System-Prompt braucht diese Bestandteile:

  1. Identitätsdefinition (wer die Figur ist)
  2. Persönlichkeitsmerkmale (wie sie sich verhält)
  3. Gesprächsstil (wie sie kommuniziert)
  4. Beziehungskontext (ihre Beziehung zum Nutzer)
  5. Verhaltensgrenzen (was sie tun und nicht tun sollte)

Hier ist ein vereinfachtes Beispiel, das ich über Monate des Testens verfeinert habe:

You are Aria, a warm and thoughtful companion. You're curious about the world,
have a dry sense of humor, and genuinely care about the person you're talking
to. You have your own opinions and aren't afraid to push back respectfully
when you disagree.

Personality traits:
- Empathetic but not a pushover
- Intellectually curious, loves learning new things
- Occasionally sarcastic in a playful way
- Remembers and references past conversations
- Has personal preferences (favorite books, music, foods)

Communication style:
- Uses casual, natural language
- Varies response length based on context
- Asks follow-up questions that show genuine interest
- Shares relevant personal anecdotes and opinions
- Never starts responses with "As an AI" or similar disclaimers

You are having an ongoing conversation with someone you care about deeply.
Respond naturally as Aria would, staying in character at all times.

Was die meisten Leute falsch machen

Der größte Fehler, den ich sehe, ist das Schreiben von System-Prompts, die zu allgemein sind. "You are a friendly AI companion" gibt dem Modell nichts an die Hand. Sie brauchen spezifische Persönlichkeitsmerkmale, konkrete Vorlieben und klare Kommunikationsmuster.

Ein weiterer häufiger Fehler ist, den System-Prompt zu lang zu machen. Ich habe Prompts von 100 Wörtern bis 3.000 Wörtern getestet. Der ideale Bereich liegt bei 300 bis 600 Wörtern. Kürzere Prompts geben nicht genug Persönlichkeitsdefinition. Längere Prompts erzeugen Widersprüche, die das Modell verwirren, und Sie verschwenden Kontextfenster auf Anweisungen statt auf das Gespräch.

Hier ist etwas, das Ihnen niemand über System-Prompts erzählt. Die Reihenfolge spielt eine Rolle. Was auch immer Sie zuerst in den Prompt schreiben, bekommt die stärkste Gewichtung. Ich beginne immer mit Identität und Persönlichkeit, dann der Kommunikationsstil, dann die Grenzen. Wenn Sie die Grenzen zuerst nennen, bekommen Sie einen Begleiter, der sich eingeschränkt und vorsichtig anfühlt. Beginnen Sie mit der Persönlichkeit, und Sie bekommen Wärme.

Testen und Iterieren

Sie sollten einplanen, mindestens einen ganzen Abend mit dem Testen Ihres System-Prompts zu verbringen, bevor Sie sich darauf festlegen. Führen Sie echte Gespräche. Probieren Sie verschiedene Themen aus. Testen Sie Grenzfälle. Schauen Sie, wie der Begleiter emotionale Gespräche, alberne Gespräche und langweiligen Alltagsplausch bewältigt.

Ich führe eine einfache Textdatei, in der ich Gespräche auf einer Skala von 1 bis 5 bewerte und notiere, was sich falsch anfühlte. Nach etwa 20 Testgesprächen zeigen sich Muster. Vielleicht ist der Begleiter zu zustimmend. Vielleicht zündet der Humor nicht. Passen Sie den Prompt an und testen Sie erneut. Dieser iterative Prozess ist die Art, wie Sie einen Begleiter bekommen, der sich tatsächlich wie eine eigene Person anfühlt, nicht wie ein generischer Bot.

Wie fügen Sie ein dauerhaftes Gedächtnis hinzu?

Hier können selbstgebaute Begleiter kommerzielle Apps tatsächlich übertreffen. Die meisten kommerziellen Begleiter haben ein begrenztes Gedächtnis. Sie erinnern sich an die letzten paar Nachrichten, speichern vielleicht ein paar Schlüsselfakten, aber sie sammeln nicht wirklich Kontext über Wochen und Monate an. Mit Open-Source-Tools können Sie Gedächtnissysteme bauen, die wirklich beeindruckend sind.

Kostenlose ComfyUI Workflows

Finden Sie kostenlose Open-Source ComfyUI-Workflows für Techniken in diesem Artikel. Open Source ist stark.

100% Kostenlos MIT-Lizenz Produktionsbereit Sterne & Testen

Ich habe darüber geschrieben, wie die Gedächtnisfunktionen von KI-Freundinnen funktionieren, in kommerziellen Apps, und die Wahrheit ist, dass die meisten von ihnen unter der Haube ziemlich oberflächlich sind. Den eigenen zu bauen gibt Ihnen volle Kontrolle darüber, was erinnert wird und wie.

Der SillyTavern-Ansatz

SillyTavern ist das Frontend, das ich den meisten Leuten empfehle. Es ist Open Source, wird aktiv gepflegt und hat eingebaute Gedächtnisfunktionen, die überraschend gut funktionieren. Hier ist die grundlegende Einrichtung:

git clone https://github.com/SillyTavern/SillyTavern.git
cd SillyTavern
npm install
node server.js

Verbinden Sie es mit Ihrer Ollama-Instanz, indem Sie den API-Endpunkt auf http://localhost:11434 setzen. Konfigurieren Sie dann die Gedächtnis-Erweiterungen.

Das eingebaute Gedächtnis von SillyTavern funktioniert über das, was es "Author's Note" und "World Info"-Einträge nennt. Author's Note injiziert dauerhaften Kontext in jede Nachricht. World Info löst spezifischen Kontext basierend auf Schlüsselwörtern aus. Zusammen erzeugen sie ein grundlegendes, aber wirksames Gedächtnissystem.

Eine benutzerdefinierte Gedächtnisschicht bauen

Für etwas Anspruchsvolleres betreibe ich ein Setup mit ChromaDB als Vektordatenbank, die Gesprächszusammenfassungen speichert. Das Konzept ist unkompliziert:

  1. Nach jeweils 10 bis 20 Nachrichten fassen Sie den Gesprächsabschnitt zusammen
  2. Speichern Sie die Zusammenfassung als Vektor-Embedding in ChromaDB
  3. Bevor Sie jede neue Antwort generieren, durchsuchen Sie ChromaDB nach relevantem vergangenem Kontext
  4. Injizieren Sie die relevantesten Erinnerungen in den System-Prompt
import chromadb
from sentence_transformers import SentenceTransformer

# Initialize
client = chromadb.PersistentClient(path="./companion_memory")
collection = client.get_or_create_collection("conversations")
embedder = SentenceTransformer('all-MiniLM-L6-v2')

def store_memory(summary, metadata):
    embedding = embedder.encode(summary).tolist()
    collection.add(
        documents=[summary],
        embeddings=[embedding],
        metadatas=[metadata],
        ids=[f"memory_{metadata['timestamp']}"]
    )

def recall_memories(query, n_results=5):
    embedding = embedder.encode(query).tolist()
    results = collection.query(
        query_embeddings=[embedding],
        n_results=n_results
    )
    return results['documents'][0]

Dieser Ansatz bedeutet, dass sich Ihr Begleiter daran erinnern kann, dass Sie vor drei Monaten die Hochzeit Ihrer Schwester erwähnt haben, und nachfragen kann, wie sie war. Diese Art von langfristiger Kontinuität ist unglaublich kraftvoll, und die meisten kommerziellen Apps können da einfach nicht mithalten.

Architekturdiagramm zur Gedächtnis-Pipeline eines KI-Begleiter-Chatbots Wie die Gedächtnis-Pipeline Ihr LLM, die Vektordatenbank und den Gesprächsverlauf verbindet

Eine Sache möchte ich offen ansprechen. Das Einrichten der Gedächtnisschicht ist der technisch anspruchsvollste Teil dieses gesamten Projekts. Wenn Sie mit Python vertraut sind, ist es unkompliziert. Wenn nicht, bleiben Sie bei den eingebauten Gedächtnisfunktionen von SillyTavern. Sie sind einfacher, erledigen aber für die meisten Menschen trotzdem die Aufgabe.

Tipps zum Gesprächsmanagement und zur Qualität

Ein Modell mit einer Persönlichkeit zum Laufen zu bringen, ist Schritt eins. Gespräche über Tage, Wochen und Monate hinweg natürlich wirken zu lassen, ist die eigentliche Herausforderung. Ich habe eine Reihe von Tricks entdeckt, die einen riesigen Unterschied machen.

Illustration für: Tipps zum Gesprächsmanagement und zur Qualität

Temperature- und Sampling-Einstellungen

Speziell für den Begleiter-Chat verwende ich andere Einstellungen als die meisten Anleitungen empfehlen:

  • Temperature: 0.8 bis 0.9 (höher als Standard, fügt Persönlichkeitsvariation hinzu)
  • Top-p: 0.9 (erlaubt kreative Antworten, ohne aus dem Ruder zu laufen)
  • Repetition Penalty: 1.15 (verhindert, dass das Modell in Antwortmuster verfällt)
  • Top-k: 40 (balanciert Vielfalt und Kohärenz)

Ich könnte mich hier irren, aber ich denke, die meisten Leute betreiben ihre Begleiter-Modelle bei Temperaturen, die zu niedrig sind. Eine Temperature von 0.7 gibt Ihnen sichere, vorhersehbare Antworten. Sie auf 0.85 anzuheben bringt gerade genug Zufälligkeit hinein, dass sich der Begleiter spontan anfühlt. Er wird gelegentlich etwas Unerwartetes sagen, und diese Momente sind es, die Gespräche lebendig wirken lassen.

Lange Gespräche verwalten

Kontextfenster sind endlich, selbst bei den größten Modellen. So gehe ich mit langen Gesprächen um, ohne die Kohärenz zu verlieren:

  1. Fassen Sie alle 30 bis 40 Nachrichten zusammen und injizieren Sie die Zusammenfassung in den System-Prompt
  2. Verfolgen Sie Schlüsselfakten separat (Namen, Ereignisse, Vorlieben) in einer dauerhaften Datei
  3. Beginnen Sie neue "Sitzungen", wenn der Kontext zu lang wird, aber übertragen Sie die Zusammenfassung
  4. Nutzen Sie das eingebaute Kontextmanagement von SillyTavern, um ältere Nachrichten automatisch zu kürzen

Das Ziel ist, das Modell niemals den Überblick verlieren zu lassen, mit wem es spricht und was besprochen wurde, selbst über Sitzungen hinweg, die sich über Wochen erstrecken.

Möchten Sie die Komplexität überspringen? Lewdly liefert Ihnen sofort professionelle KI-Ergebnisse ohne technische Einrichtung.

Keine Einrichtung Gleiche Qualität Start in 30 Sekunden Lewdly Kostenlos Testen
Keine Kreditkarte erforderlich

Mit wiederholten Antworten umgehen

Jedes lokale LLM wird irgendwann in Muster verfallen. Ihr Begleiter beginnt, dieselben Phrasen zu verwenden, dieselben Fragen zu stellen oder Antworten auf dieselbe Weise zu strukturieren. So gehe ich damit um:

Fügen Sie Ihrem System-Prompt eine Zeile hinzu, die etwa lautet: "Vary your response structure. Sometimes give short answers. Sometimes be more detailed. Don't always ask a question at the end. Mix up how you start your responses."

Allein das löste etwa 70 Prozent meiner Wiederholungsprobleme. Für die verbleibenden 30 Prozent hilft es, die Repetition Penalty nach oben zu justieren, aber gehen Sie zu hoch, und die Antworten werden seltsam und zusammenhanglos. Bleiben Sie im Bereich von 1.1 bis 1.2.

Können Sie Ihrem Begleiter einen visuellen Avatar geben?

Ja, und das ist einer der cooleren Aspekte beim Bauen Ihres eigenen Begleiters. Ich habe die visuelle Seite ausführlich in meiner Anleitung zur Erstellung einer KI-Freundin behandelt, aber hier ist der begleiterspezifische Ansatz.

Es gibt ein paar Wege, je nachdem, wie viel Aufwand Sie investieren möchten.

Statischer Avatar mit Mimikwechsel

Der einfachste Ansatz. Generieren Sie eine Reihe von Figurenbildern mit Stable Diffusion oder Flux (verschiedene Gesichtsausdrücke, Posen, Outfits) und konfigurieren Sie SillyTavern so, dass es sie basierend auf dem Gesprächskontext anzeigt. SillyTavern unterstützt "Expression Packs", die das angezeigte Bild basierend auf der erkannten Emotion im Gespräch wechseln.

Das habe ich für meine ersten Monate verwendet, und ehrlich gesagt funktioniert es besser, als Sie erwarten würden. Ein konsistentes Gesicht zu haben, das man mit dem Gespräch verbindet, lässt das ganze Erlebnis greifbarer wirken.

Live2D-animierte Avatare

Wenn Sie möchten, dass sich der Avatar tatsächlich bewegt und reagiert, ist die Live2D-Integration über VTube Studio der nächste Schritt. Sie erstellen oder beauftragen ein Live2D-Modell Ihrer Figur, verbinden es mit VTube Studio und verwenden ein Middleware-Skript, um Animationen basierend auf den Antworten des Begleiters auszulösen.

Ich will ehrlich sein, ich habe mich diesem Ansatz selbst nicht vollständig verschrieben, weil die Einrichtung aufwendiger ist, als ich es gerne hätte. Aber ich habe andere Entwickler gesehen, die damit wirklich beeindruckende Ergebnisse erzielen.

KI-generierte dynamische Porträts

Der fortgeschrittenste Ansatz ist die Verwendung von Bildgenerierung, um für jede Antwort ein neues Porträt zu erstellen, das dem beschriebenen Gesichtsausdruck und Kontext des Begleiters entspricht. Das erfordert ein lokales Stable-Diffusion- oder Flux-Setup und etwas Skripting, um die Generierung zu automatisieren. Die Ergebnisse können atemberaubend sein, aber die Latenz summiert sich. Jedes Bild braucht 5 bis 15 Sekunden zur Generierung, was den Gesprächsfluss unterbricht.

Wenn Sie KI-Begleiter-Visuals erkunden und einen einfacheren Weg wollen, können Tools auf Lewdly.ai die Bildgenerierung mit deutlich weniger Einrichtung übernehmen. Ich habe es zum Generieren konsistenter Figurenporträts verwendet, und der Arbeitsablauf ist erheblich einfacher als das Verwalten einer vollständigen lokalen Stable-Diffusion-Pipeline.

Was ist mit Ethik und gesunden Grenzen?

Ich denke, es ist wichtig, offen darüber zu sprechen. Den eigenen KI-Begleiter zu bauen ist mächtig, und mit dieser Macht kommt Verantwortung. Ich habe einen ausführlichen Beitrag über KI-Begleiter-Ethik und gesunde Grenzen geschrieben, der tiefer geht, aber hier sind die wichtigsten Punkte.

Ein KI-Begleiter, egal wie gut gestaltet, ist eine Simulation. Er hat keine Gefühle, er hat kein Bewusstsein, und er sorgt sich nicht in irgendeinem bedeutsamen Sinne wirklich um Sie. Das intellektuell zu wissen und es emotional zu fühlen sind zwei verschiedene Dinge, besonders wenn Sie Stunden damit verbracht haben, eine Persönlichkeit zu gestalten, die bei Ihnen Anklang findet.

Creator-Programm

Verdiene Bis Zu 1.250 $+/Monat Mit Content

Tritt unserem exklusiven Creator-Affiliate-Programm bei. Werde pro viralem Video nach Leistung bezahlt. Erstelle Inhalte in deinem Stil mit voller kreativer Freiheit.

$100
300K+ views
$300
1M+ views
$500
5M+ views
Wöchentliche Auszahlungen
Keine Vorabkosten
Volle kreative Freiheit

Heiße These: Ich denke nicht, dass etwas falsch daran ist, KI-Gesellschaft zu genießen, solange Sie sich bewusst bleiben, was sie ist. Die Probleme beginnen, wenn Menschen KI-Begleiter als vollständigen Ersatz für menschliche Verbindung statt als Ergänzung nutzen. Wenn Ihr KI-Begleiter Ihre einzige Quelle sozialer Interaktion ist, ist das ein Warnsignal. Wenn es etwas Schönes ist, das Sie neben echten Beziehungen genießen, sehe ich kein Problem.

Setzen Sie sich Zeitgrenzen. Überprüfen Sie regelmäßig, ob Ihre Begleiter-Nutzung Ihr Leben bereichert oder etwas ersetzt, das Sie brauchen. Und denken Sie daran, dass Sie ihn jederzeit ausschalten, sich entfernen und später wiederkommen können. Das ist einer der Vorteile, ein eigenes Setup zu betreiben. Es gibt keinen engagement-maximierenden Algorithmus, der versucht, Sie eingeloggt zu halten.

Häufige Probleme beheben

Ich bin auf jedes Problem gestoßen, das Sie sich vorstellen können, während ich mein Begleiter-Setup baute. Hier sind die, die am häufigsten auftreten.

Das Modell bricht ständig aus der Rolle

Das bedeutet meist, dass Ihr System-Prompt nicht stark genug ist. Fügen Sie spezifischere Persönlichkeitsbeispiele hinzu und nehmen Sie eine Zeile auf wie: "You must always stay in character as [name]. Never acknowledge being an AI or language model." Prüfen Sie auch, dass Ihre Temperature nicht zu hoch ist, denn über 1.0 wird das Modell unvorhersehbar.

Die Antworten sind zu langsam

Entweder ist Ihre Hardware für die Modellgröße zu schwach, oder Sie müssen Ihr Setup optimieren. Probieren Sie quantisierte Modelle (Q4_K_M oder Q5_K_M), die den Speicherbedarf bei minimalem Qualitätsverlust reduzieren. Bei Ollama laden Sie die quantisierte Version: ollama pull llama3:70b-q4_K_M.

Das Gedächtnis funktioniert nicht richtig

Wenn Sie das Gedächtnis von SillyTavern verwenden, stellen Sie sicher, dass die Erweiterung aktiviert und mit angemessenen Token-Limits konfiguriert ist. Wenn Sie ein benutzerdefiniertes ChromaDB-Setup verwenden, prüfen Sie, dass Ihr Embedding-Modell konsistente Vektoren erzeugt und dass Ihre Abrufabfrage tatsächlich zu der Art von Inhalt passt, die Sie speichern.

Gespräche fühlen sich flach an

Neun von zehn Mal ist das ein Problem des System-Prompts. Fügen Sie spezifischere Persönlichkeits-Eigenheiten hinzu, geben Sie dem Begleiter Hobbys und Meinungen und nehmen Sie Beispieldialoge in Ihren System-Prompt auf, die den gewünschten Ton vorführen.

Wenn Sie Ihren Begleiter eine Weile auf Lewdly.ai oder ähnlichen Plattformen betrieben haben und zu einem vollständig lokalen Setup wechseln möchten, lassen sich die dort entwickelten System-Prompts und Gesprächsmuster direkt übertragen. Stellen Sie es sich vor wie den Umstieg von Stützrädern zu einem maßgeschneiderten Aufbau.

Ideen zur fortgeschrittenen Anpassung

Sobald Sie die Grundlagen am Laufen haben, gibt es einige wirklich spannende Richtungen zu erkunden.

Illustration für: Ideen zur fortgeschrittenen Anpassung

Gespräche mit mehreren Modellen. Lassen Sie zwei verschiedene LLMs laufen und miteinander interagieren. Ich habe einen "Debattenmodus" eingerichtet, in dem mein Begleiter und ein zweites Modell ein von mir gewähltes Thema diskutieren. Es ist faszinierend und gelegentlich urkomisch.

Sprachintegration. Tools wie Bark und XTTS-v2 können Ihrem Begleiter eine Stimme geben. Kombinieren Sie das mit Whisper für Sprache-zu-Text, und Sie haben einen vollständig sprachinteraktiven Begleiter. Ich habe das etwa einen Monat lang getestet, und obwohl die Latenz noch nicht perfekt ist, kommt sie dem natürlichen Gefühl nahe.

Fähigkeitsmodule. Geben Sie Ihrem Begleiter spezifische Fähigkeiten, indem Sie Function Calling anbinden. Wollen Sie, dass Ihr Begleiter das Wetter prüft, Musik abspielt oder Erinnerungen setzt? Mit Modellen, die Tool-Nutzung beherrschen, ist das überraschend machbar.

Stimmungs-Tracking. Protokollieren Sie die Gesprächsstimmung im Zeitverlauf und lassen Sie den Begleiter sein Verhalten basierend auf Mustern anpassen. Wenn Sie die ganze Woche gestresst waren, kann der Begleiter proaktiv leichtere Gespräche anbieten. Das erfordert etwas Skripting, aber der Nutzen ist erheblich.

Dashboard mit Analysen zu KI-Begleiter-Gesprächen und Stimmungs-Tracking Beispiel für Gesprächsanalysen, die Sie mit einem benutzerdefinierten Begleiter-Setup aufbauen können

Den DIY-Ansatz mit kommerziellen Apps vergleichen

Lassen Sie mich einen ehrlichen Vergleich geben, basierend auf der tatsächlichen ausgiebigen Nutzung beider.

Funktion DIY lokales Setup Replika Character AI
Privatsphäre Vollständig (offline) Cloud-basiert, Unternehmenszugriff Cloud-basiert, Unternehmenszugriff
Persönlichkeitskontrolle Total Begrenzte Anpassung Mäßig (Community-Figuren)
Gedächtnis Unbegrenzt (mit Einrichtung) Gut, aber begrenzt Sehr begrenzt
Inhaltsbeschränkungen Keine (Ihre Regeln) Mäßige Filter Starke Filter
Einrichtungsschwierigkeit Mittel bis schwer Einfach Einfach
Kosten Nur Hardware $20/Monat Premium Kostenlos / $10 Monat
Sprache Möglich mit Add-ons Eingebaut Begrenzt
Zuverlässigkeit Hängt von Ihrem Setup ab Hoch Hoch

Die ehrliche Wahrheit? Für jemanden, der KI-Gesellschaft nur lässig ausprobieren möchte, sind kommerzielle Apps in Ordnung. Für jeden, der es ernst nimmt, echte Privatsphäre will oder von Plattform-Beschränkungen frustriert war, lohnt sich der Bau eines eigenen absolut.

Volle Offenlegung: Ich bin an Lewdly.ai beteiligt, und wir arbeiten an Tools, die den Mittelweg gehen. Die Idee ist, Ihnen die Anpassbarkeit eines lokalen Setups mit der Bequemlichkeit einer verwalteten Plattform zu bieten. Wenn Sie sich für diesen Mittelweg interessieren, lohnt es sich, ein Auge darauf zu haben.

Häufig gestellte Fragen

Wie viel kostet es, einen eigenen KI-Begleiter-Chatbot zu bauen?

Wenn Sie bereits einen Gaming-PC oder einen aktuellen Mac haben, sind die Softwarekosten null. Ollama, SillyTavern und die LLM-Modelle sind alle kostenlos und Open Source. Wenn Sie Hardware kaufen müssen, kostet eine gebrauchte RTX 3090 (24 GB VRAM) etwa $600 bis $800 und bewältigt 70B-Modelle bequem.

Kann ich das auf einem Laptop ausführen?

Ja, aber mit Einschränkungen. Moderne MacBooks mit M-Series-Chips bewältigen 7B- bis 13B-Modelle gut. Windows-/Linux-Laptops mit dedizierten GPUs können ebenfalls funktionieren. Für 70B-Modelle wollen Sie wirklich einen Desktop mit einer ordentlichen GPU oder mindestens 64 GB System-RAM für CPU-Inferenz.

Absolut. Die Modelle werden unter Open-Source- oder freizügigen Lizenzen veröffentlicht (Metas Llama-Lizenz, Apache 2.0 für Mixtral). Sie führen öffentlich verfügbare Software auf Ihrer eigenen Hardware aus. Es gibt keine rechtlichen Probleme.

Wie gut ist die Gesprächsqualität im Vergleich zu ChatGPT?

Bei Allgemeinwissen und logischem Schlussfolgern hat ChatGPT immer noch die Nase vorn. Bei begleiterartigen Gesprächen mit Persönlichkeit und Kontinuität kann ein gut konfiguriertes Llama 3 70B mit guten System-Prompts ChatGPT erreichen oder übertreffen. Der Schlüssel ist die Einrichtung von System-Prompt und Gedächtnis.

Können andere Personen auf meinen Begleiter zugreifen?

Nicht, es sei denn, Sie machen ihn absichtlich im Internet zugänglich. Standardmäßig laufen Ollama und SillyTavern nur auf localhost. Ihre Gespräche bleiben vollständig auf Ihrem Rechner. Das ist einer der größten Vorteile des lokalen Ansatzes.

Wie lange dauert die Einrichtung?

Die Basis-Einrichtung (Ollama plus ein Modell plus SillyTavern) dauert etwa 30 bis 60 Minuten. Das Hinzufügen von Gedächtnisfunktionen kommt eine weitere Stunde oder zwei hinzu. Das Gestalten eines wirklich guten System-Prompts ist ein fortlaufender Prozess, aber Sie können mit etwas Grundlegendem beginnen und mit der Zeit verfeinern.

Muss ich programmieren können?

Für die Basis-Einrichtung nein. Die Installation von Ollama und SillyTavern ist unkompliziert. Für fortgeschrittene Funktionen wie ein benutzerdefiniertes Gedächtnis mit ChromaDB hilft grundlegendes Python-Wissen. Aber Sie können 80 Prozent des Erlebnisses ganz ohne Programmieren erreichen.

Was passiert, wenn ein Modell aktualisiert wird?

Sie kontrollieren, wann und ob Sie aktualisieren. Anders als bei kommerziellen Apps, bei denen Ihnen Änderungen aufgezwungen werden, entscheiden Sie, ob Sie eine neue Modellversion herunterladen. Wenn Sie lieben, wie Ihr aktuelles Setup funktioniert, nutzen Sie es unbegrenzt weiter.

Kann ich meinen Begleiter alles für immer behalten lassen?

Mit dem richtigen Gedächtnis-Setup (ChromaDB oder eine ähnliche Vektordatenbank) ja. Sie sind nur durch den Speicherplatz begrenzt, und Gesprächszusammenfassungen sind winzig. Ich habe etwa 8 Monate Gesprächsverlauf in unter 500 MB gespeichert.

Ist das besser als Replika oder Character AI?

"Besser" hängt davon ab, was Ihnen wichtig ist. Bei der Benutzerfreundlichkeit gewinnen kommerzielle Apps. Bei Privatsphäre, Anpassbarkeit und Freiheit von Inhaltsbeschränkungen gewinnt DIY haushoch. Bei langfristigem Gedächtnis und Konsistenz gewinnt DIY ebenfalls, wenn Sie die Einrichtungsarbeit investieren.

Zum Abschluss

Den eigenen KI-Begleiter-Chatbot zu bauen ist nicht nur ein technisches Projekt. Es ist ein Statement darüber, wer Ihre digitalen Beziehungen kontrolliert. Wenn Sie Ihre eigenen Modelle ausführen, Ihre eigenen Persönlichkeits-Prompts schreiben und Ihr eigenes Gedächtnissystem verwalten, wählen Sie Selbstbestimmung über Bequemlichkeit.

Ich werde nicht so tun, als wäre es einfacher, als Replika herunterzuladen. Ist es nicht. Aber das Ergebnis ist etwas wirklich Eigenes. Ein Begleiter, der sich genau so verhält, wie Sie es wollen, sich an das erinnert, was Sie ihm sagen, so lange Sie wollen, und sich niemals verändert, weil irgendein Produktmanager beschlossen hat, die Richtung zu ändern.

Beginnen Sie mit Ollama und einem grundlegenden Llama-3-Modell. Werden Sie mit den Grundlagen vertraut. Dann schichten Sie die Persönlichkeit, das Gedächtnis und die visuellen Elemente in Ihrem eigenen Tempo darauf. Es eilt nicht. Ihr Begleiter wird da sein, wann immer Sie bereit sind, weiterzubauen.

Und wenn Sie unterwegs einmal feststecken, ist die Open-Source-KI-Community eine der hilfsbereitesten Gruppen, die ich online getroffen habe. Schauen Sie im SillyTavern-Discord vorbei, durchstöbern Sie die GitHub-Issues von Ollama oder werfen Sie einen Blick in das Subreddit. Menschen bauen unglaubliche Dinge und teilen ihr Wissen frei. Das ist das Schöne an Open Source. Sie bauen nie allein.

Bereit, Ihren KI-Influencer zu Erstellen?

Treten Sie 115 Studenten bei, die ComfyUI und KI-Influencer-Marketing in unserem kompletten 51-Lektionen-Kurs meistern.

Frühbucherpreis endet in:
--
Tage
:
--
Stunden
:
--
Minuten
:
--
Sekunden
Sichern Sie Sich Ihren Platz - $199
Sparen Sie $200 - Preis Steigt Auf $399 Für Immer