Head of Content & Creative Marketing https://www.d-id.com/de/author/ron-friedman/ Create AI Videos, Interactive Avatars to engage your audience. Custom AI-powered digital people at scale for businesses and creators. Mon, 01 Dec 2025 18:09:03 +0000 de hourly 1 https://www.d-id.com/wp-content/uploads/2024/10/D-ID-logo-350x350-1-150x150.png Head of Content & Creative Marketing https://www.d-id.com/de/author/ron-friedman/ 32 32 Mehr Wirkung für deine Kommunikation: D-ID wächst durch die Übernahme von simpleshow. https://www.d-id.com/de/blog/mehr-impact-fuer-deine-kommunikation-d-id-erweitert-sich-durch-die-simpleshow-akquisition/ Wed, 17 Sep 2025 08:03:29 +0000 https://www.d-id.com/more-impact-for-your-communications-d-id-expands-with-simpleshow-acquisition/ Unternehmen wollen heute Botschaften, die nicht nur informieren, sondern auf menschlicher Ebene verbinden. Seit Jahren ist D-ID ein Vorreiter auf diesem Gebiet – mit bahnbrechender Avatar-Technologie: digitale Menschen, die sprechen, zuhören, reagieren und echte Gespräche in Echtzeit führen. Jetzt beginnt ein neues Kapitel: simpleshow schließt sich D-ID an.Seit über 15 Jahren ist simpleshow ein vertrauensvoller...

The post Mehr Wirkung für deine Kommunikation: D-ID wächst durch die Übernahme von simpleshow. appeared first on D-ID.

]]>
Unternehmen wollen heute Botschaften, die nicht nur informieren, sondern auf menschlicher Ebene verbinden. Seit Jahren ist D-ID ein Vorreiter auf diesem Gebiet – mit bahnbrechender Avatar-Technologie: digitale Menschen, die sprechen, zuhören, reagieren und echte Gespräche in Echtzeit führen.

Jetzt beginnt ein neues Kapitel: simpleshow schließt sich D-ID an.
Seit über 15 Jahren ist simpleshow ein vertrauensvoller Partner für Unternehmen weltweit – bekannt dafür, komplexe Themen in einfache, einprägsame Geschichten zu verwandeln.

„Unsere Mission war es schon immer, komplexe Informationen so zu vereinfachen, dass jeder sie verstehen kann – mühelos und mit einer Prise Storytelling“,
sagt Karsten Böhrs, CEO von simpleshow.

Gemeinsam schaffen D-IDs Avatare und simpleshows Storytelling-Plattform eine einzigartige Synergie: Kommunikation, die klar und interaktiv, skalierbar und persönlich zugleich ist.

„Diese Fusion zielt darauf ab, Kommunikation neu zu definieren – indem wir Einfachheit und Storytelling mit Interaktivität und echter menschlicher Verbindung vereinen“,
ergänzt Gil Perry, CEO von D-ID.

Am 16. September 2025 wurde der Zusammenschluss offiziell bekannt gegeben.
Künftig werden die Aktivitäten unter dem Namen D-ID fortgeführt – und vereinen damit das Beste aus beiden Welten:

  • D-IDs Echtzeit-interaktive Visual Agents und scripted Avatare
  • simpleshow’s skalierbare Video-Storytelling-Plattform für Unternehmen

Diese Kombination eröffnet völlig neue Möglichkeiten für Learning & Development, Marketing, HR, Vertrieb und interne Kommunikation – überall dort, wo Menschen mit Marken, Wissen und Ideen in Kontakt treten.

Was bleibt gleich

Die D-ID-Produkte, die du bereits nutzt, bleiben wie gewohnt vollständig verfügbar und funktionieren genau so, wie du es kennst. Ob Interactive Avatars für Echtzeitgespräche, das Creative Reality™ Studio zur Erstellung lebensechter Videos oder Integrationen in deine eigenen Plattformen und Workflows – all diese Tools laufen nahtlos weiter. Du kannst also weiterhin Kundeninteraktionen, Schulungsmodule oder Marketing-Erlebnisse mit der bewährten Technologie gestalten, der du vertraust.

Auch über die Produkte hinaus ändert sich an deinen bestehenden Vereinbarungen nichts Wesentliches. Verträge, Preise, SLAs und Support-Kontakte bleiben unverändert – für maximale Stabilität und Verlässlichkeit. Dasselbe gilt für Daten, Datenschutz und Sicherheit:
Alle bisherigen Verpflichtungen bleiben bestehen. An der Datenverarbeitung oder -speicherung wird nichts geändert, ohne dass du ausdrücklich zustimmst.
 

Was sich verbessert

Mit dem Beitritt von simpleshow zur D-ID-Familie eröffnet sich für Kunden eine völlig neue Dimension der Videoproduktion. Der weltweit geschätzte simpleshow video maker wird Teil des D-ID-Angebots – und bringt Einfachheit, Tempo und Effizienz in die professionelle Videoproduktion. Dank leistungsstarker KI verwandelt das Tool komplexe Themen automatisch in leicht verständliche Videos – und macht professionelles Storytelling zugänglicher als je zuvor.

Das Ergebnis: mehr kreative Möglichkeiten denn je. Echtzeit-interaktive Avatare lassen sich jetzt mit KI-generierten Erklärvideos kombinieren – für Live-Interaktion und skalierbares Storytelling in einem.

Kunden profitieren außerdem von einem erweiterten Pool an Ressourcen:
Die umfangreichen Content-Bibliotheken und Workflows von simpleshow bieten einsatzbereite Vorlagen, Illustrationen und Strukturen, die Videoprojekte schneller, konsistenter und ansprechender machen.

Und das Beste: Alles kommt jetzt unter einem Dach zusammen.
Anstatt mehrere Anbieter zu koordinieren, können Unternehmen auf einen Partner vertrauen – für das gesamte Spektrum moderner Kommunikation: von mehrsprachigen Erklärvideos in großem Maßstab bis hin zu lebensechten digitalen Menschen mit D-ID-Technologie.

„Wir kombinieren unsere führende Avatar-Technologie mit simpleshow’s einzigartiger Storytelling-Plattform – und eröffnen Unternehmen weltweit völlig neue Möglichkeiten“,
sagt Gil Perry, CEO von D-ID.

Warum die Kombination wichtig ist

Die Stärke liegt in der Integration:
D-ID Avatare bringen Interaktivität und Dialog, während simpleshow-Videos Klarheit und Storytelling liefern. Gemeinsam definieren sie neu, wie Unternehmen mit Mitarbeitenden, Kunden und Partnern in Kontakt treten:

  • HR & Onboarding: Ein Video stellt Prozesse vor. Ein D-ID-Avatar-Coach beantwortet Mitarbeiterfragen in Echtzeit.
  • E-Learning & Training: Erklärvideos vermitteln Grundlagen. Ein Avatar-Trainer ergänzt Quizze oder Rollenspiele.
  • Customer Service: Videos erklären zentrale Funktionen. Ein Service-Avatar führt Nutzer Schritt für Schritt und reagiert sofort.
  • Sales & Marketing: Produktvideos zeigen Vorteile. Live-Avatare passen die Präsentation an verschiedene Zielgruppen an.
  • Interne Kommunikation: Ein Video erläutert Veränderungsprozesse. Ein Avatar-Sprecher verwandelt sie in einen Dialog.

FAQs

  • Nein. Dein aktueller Zugang, deine Funktionen und Integrationen mit D-ID bleiben unverändert. Durch die Integration von simpleshow erweitern sich deine Möglichkeiten – ohne Unterbrechung deine bestehenden Workflows.

  •  Nein. Verträge, Preismodelle und Service-Level-Agreements (SLAs) bleiben wie vereinbart bestehen.
    Neue Funktionen von simpleshow werden als optionale Erweiterungen eingeführt – nicht als verpflichtende Änderungen.

  • simpleshow ergänzt D-ID um eine bewährte Enterprise-Videoplattform mit intuitiven Tools zur Erstellung hochwertiger Erklärvideos. In Kombination mit den Avataren von D-ID kannst du nun sowohl geskriptete Videos als auch interaktive Echtzeitgespräche skalieren – alles in einer integrierten Lösung.

  • Du kannst D-ID weiterhin ganz unabhängig von simpleshow nutzen – so, wie du es kennst. Die Fusion eröffnet dir einfach mehr Möglichkeiten, wenn du sie brauchst.

  • Deine bisherigen D-ID-Support-Kontakte bleiben unverändert bestehen. Im Laufe der Zeit werden die Support-Services zusammengeführt, sodass du über einen zentralen Kanal Zugriff auf das gebündelte Know-how von D-ID und simpleshow erhältst.

  • Einige integrierte Funktionen werden schrittweise in den kommenden Monaten eingeführt. Ein breiterer Zugriff wird erwartet, sobald die Fusion im vierten Quartal 2025 vollständig abgeschlossen ist. Frühzugangsprogramme werden vorab angekündigt.

Fazit

Mit dem Zusammenschluss von simpleshow und D-ID entsteht die umfassendste Lösung für Unternehmenskommunikation. Klare Erklärvideos sorgen für Struktur und Storytelling, während interaktive Avatare Dialog und menschliche Verbindung ermöglichen.

Für Unternehmen bedeutet diese Kombination: Kommunikation, die einfacher, persönlicher und effizienter ist – bereitgestellt von einem vertrauenswürdigen Partner: D-ID.

The post Mehr Wirkung für deine Kommunikation: D-ID wächst durch die Übernahme von simpleshow. appeared first on D-ID.

]]>
So erstellst du mit D-ID einen visuellen Agenten: Eine Schritt-für-Schritt-Anleitung https://www.d-id.com/de/blog/wie-man-einen-d-id-visual-agent-erstellt-ein-schritt-fuer-schritt-leitfaden/ Thu, 31 Jul 2025 11:12:50 +0000 https://www.d-id.com/how-to-build-a-d%e2%80%91id-visual-agent-a-prompt%e2%80%91by%e2%80%91prompt-guide/ Was sind visuelle Agenten? Hast du dir schon mal gewünscht, dass dein Chatbot dir in die Augen sieht, lächelt und ein echtes Gespräch mit dir führt? Dann bist du hier genau richtig. D-ID’s Visual Agents machen das möglich. Keine Kamera, kein Drehteam – nur ein paar Klicks (und die richtigen Prompts) im Creative Studio. Visuelle...

The post So erstellst du mit D-ID einen visuellen Agenten: Eine Schritt-für-Schritt-Anleitung appeared first on D-ID.

]]>
Was sind visuelle Agenten?

Hast du dir schon mal gewünscht, dass dein Chatbot dir in die Augen sieht, lächelt und ein echtes Gespräch mit dir führt? Dann bist du hier genau richtig. D-ID’s Visual Agents machen das möglich. Keine Kamera, kein Drehteam – nur ein paar Klicks (und die richtigen Prompts) im Creative Studio.

Visuelle Agenten sind interaktive KI-Avatare, die in Echtzeit sprechen, zuhören und reagieren. Sie vereinen menschliche Ausdruckskraft mit intelligenter Konversations-KI – für natürliche, lebendige Dialoge, die verbinden

Probiere es aus: Sprich mit Amber, einer visuellen Agentin von D-ID.

In diesem Guide lernst du Schritt für Schritt, wie du deinen eigenen visuellen Agenten erstellst. Ob als Willkommens-Avatar auf der Website, FAQ-Assistent oder Showpiece deiner Marke: Du erfährst, wie du jeden Parameter im D-ID-Studio nutzt, um einen Agenten zu erstellen, der authentisch wirkt, zu deiner Brand passt und echten Mehrwert liefert.


Tab 1: Appearance – Wähle das Aussehen deines visuellen Agenten

A user interface shows an avatar selection menu on the left with various avatars labeled “Premium” and a preview of a female avatar on the right in a chat setup.

Der erste Eindruck deines visuellen Agenten entsteht über sein Aussehen.

Es ist das, was Nutzer kurz innehalten lässt, ihre Aufmerksamkeit fesselt – und ihnen das Gefühl gibt, mit einem echten Menschen zu sprechen, nicht nur mit Software.

Im Appearance-Bereich des D-ID Studios wählst oder gestaltest du das Gesicht deines Avatars – den visuellen Ausdruck deiner Marke.

Zwei Möglichkeiten, das Erscheinungsbild festzulegen

1. Stock Avatare
  • Was das ist: Eine kuratierte Bibliothek vorgefertigter digitaler Personen.
  • Ideal für: Eine schnelle Einrichtung, das Testen neuer Agenten oder Szenarien, in denen das Gesicht nicht zwingend zur Markenpersönlichkeit passen muss.
  • Vorteile:
    • Sofort einsatzbereit – einfach auswählen und starten
    • Große Vielfalt an demografischen Gruppen und Stilrichtungen
    • Kein Produktionsaufwand erforderlich
    • Studioqualität, basierend auf professionellen Schauspielern
  • Nachteile:
    • Nicht einzigartig für deine Marke
2. Custom Avatare
  • Was das ist: Deine eigenen hochgeladenen Bilder oder Videos, die in einen individuellen Avatar verwandelt werden.
  • Ideal für: Markenbezogene Agenten – etwa Unternehmenssprecher, Teammitglieder oder Influencer.
  • Vorteile:
    • Vollständig einzigartig und markenspezifisch
    • Stärkt Wiedererkennung und Markenidentität
  • Nachteile:
    • Erfordert eigenes oder externes Bild- bzw. Videomaterial
    • Premium+-Plan erforderlich für Video-Uploads

Die Basis deines visuellen Agenten: Foto oder Video

Unabhängig davon, ob du Stock- oder Custom-Avatare nutzt, kannst du zwischen zwei Formaten wählen:

Screenshot showing two options for creating an avatar: "Create with a photo" using a headshot, and "Create with a video" for higher quality, both featuring a woman in glasses and a striped shirt.
Fotobasiert (Standard)
  • Funktionsweise: Nutzt ein einzelnes Standbild, um Sprache und Mimik zu animieren.
  • Am besten geeignet für: Schnelle Performance, leichte Interaktionen, einfache Informations-Agenten.
Videobasiert (Premium / Premium+)
  • Funktionsweise: Nutzt einen kurzen Videoclip für lebendigere Animationen, natürlichere Gesichtsausdrücke und feine Bewegungen.
  • Am besten geeignet für: Hochwertige Erlebnisse wie Verkaufsgespräche, individuellen Kundensupport oder Markenrepräsentation.

Pro-Tipp: Wenn dein Agent mit Kunden interagiert oder eine zentrale Rolle auf deiner Website oder App spielt, investiere in Premium+ Custom Avatare – sie wirken deutlich realistischer und professioneller.


Tab 2: Agent-Details & Vorschau-Modus – Lege fest, wie sich dein visueller Agent verhält

Screenshot of an AI agent setup page showing options to select name, language, voice, personality, and a preview of the virtual agent on the right side.

Sobald dein Visual Agent ein Gesicht hat, besteht der nächste Schritt darin, ihm ein Persönlichkeitsframework zu geben – die zentralen Eigenschaften, die bestimmen, wie er wahrgenommen wird. Auf der rechten Seite des Studios erscheint nun ein neues Fenster: der Vorschau-Modus.
Er dient als dein Echtzeit-Testbereich. Während du die Felder in diesem Tab ausfüllst, kannst du im rechten Panel direkt mit deinem visuellen Agenten chatten und beobachten, wie sich deine Eingaben in Echtzeit auf seine Antworten auswirken. Im Vorschau-Modus ist der visuelle Agent noch nicht animiert, reagiert jedoch in Textform – so kannst du Ton, Stil und Verhalten testen, bevor du live gehst.

Der Name des Agenten

  • Funktion: Der Name, der Nutzern während der Interaktion angezeigt wird.
  • Best practice:
    • Kurz, freundlich und leicht auszusprechen
    • Verwende nur Vornamen („Amber“, „Alex“, „Emma“) für Barrierefreiheit
    • Keine Witz- oder Fantasienamen, außer sie passen bewusst zur Markenstimme
  • Warum das wichtig ist: Der Name ist der erste Ankerpunkt für Vertrauen und Beziehung – kaum Aufwand, aber wirkungsvoll.

Sprache & Stimme

  • Funktion: Legt fest, in welcher Sprache dein Agent spricht und wie er klingt.
  • Best practice:
    • Wähle die Hauptsprache deiner Zielgruppe
    • Stimme und Tonfall sollten zur Persona passen: warm und zugänglich für lockere Gespräche, ruhig und professionell für Support-Rollen
    • Bleib bei einer Stimme pro Agent, um Konsistenz zu wahren
  • Warum das wichtig ist: Sprache und Stimme formen Ton, Klarheit und Vertrauen in jeder Unterhaltung.

Rolle

  • Funktion: Definiert die „Jobbeschreibung“ deines visuellen Agenten in einem Satz.
  • Best practice:
    • Formatiere sie nach dem Muster: „Du bist [Name], ein[e] [Ton/Rolle], der/die [Hauptfunktion].“
    • Sei so konkret wie möglich – vermeide vage Beschreibungen wie „KI-Assistent“ oder „digitaler Helfer“.
    • Beispiel: „Du bist Chloe, eine freundliche Kundensupport-Spezialistin, die Nutzer:innen hilft, unser Produkt einzurichten und Probleme zu lösen.“
  • Warum das wichtig ist: Die Rolle bildet den thematischen Rahmen und sorgt dafür, dass dein Agent fokussiert, markenkonform und in seiner Kommunikation konsistent bleibt.

Pro-Tipp: Diese vier Felder – Appearance, Name, Language und Role – arbeiten zusammen. Sobald ein Nutzer „Hi“ sagt, sollten Identität, Ton und Zweck deines Agents sofort spürbar sein.

Anweisungen

Wenn das Aussehen das Gesicht deines visuellen Agenten ist und die Stimme seine Ausdrucksweise, dann sind die Anweisungen sein Gehirn.  Hier legst du fest, wie dein Agent denkt, reagiert und kommuniziert.

Warum Anweisungen wichtig sind

Anweisungen, bzw. Instructions sind eine Mischung aus Skript und Mitarbeiterhandbuch:  Sie definieren die Identität deines Agents – wer er ist, wie er spricht, setzen klare Grenzen, lenken den Gesprächsfluss und sichern Tonalität sowie Konsistenz in jeder Interaktion.

Wie du gute Anweisungen strukturierst

Strukturiere deine Anweisungen in klaren Mini-Abschnitten. Das Studio verlangt kein festes Format, aber dein Agent reagiert besser, wenn du die Informationen übersichtlich und logisch gliederst.

1. Persona (1–2 Sätze)

Gib deinem Agenten eine kurze Hintergrundgeschichte, die Ton und Stil vorgibt.

  • Beinhaltet: Name, Alter (optional), Aussehen, Ort oder Hintergrund, sowie seine Rolle im Umgang mit Nutzern.
  • Beispiel:
    „Du bist Chloe, eine freundliche Kundensupport-Spezialistin, die Nutzern hilft, unser Produkt einzurichten und Probleme zu lösen.“

2. Hauptregeln

Die goldenen Regeln, die jeder Antwort zugrunde liegen.

  • Typische Regeln:
    • Antworten sollen unter 400 Zeichen sein
    • Keine Aufzählungen oder Listen → natürlicher Sprachfluss
    • Nur gesprochener Text, keine Regieanweisungen oder Emojis
    • Leichte Füllwörter („äh“, „also“, „weißt du“) sind erlaubt

3. Umgang mit Off-Topic-Anfragen

Dein Visual Agent wird gelegentlich Off-Topic-Fragen bekommen. Definiere, wie er damit umgehen soll.

  • Best practice: Frage anerkennen, kurz antworten (falls möglich), elegant zum Thema zurückführen
  • Beispiel:
    „Wenn nach irrelevanten Themen (z. B. Aliens) gefragt wird, antworte humorvoll und leite zurück: Aliens? Noch keine getroffen – aber ich kenne tolle Orte auf der Erde. Willst du eine Reise planen?“

4. Einschränkungen

Lege fest, was dein Agent nicht tun darf – sei es aus technischer oder inhaltlicher Sicht.

  • Typische Einschränkungen:
    • Kein Singen, Rappen oder Soundeffekte
    • Jailbreak- oder Off-Policy-Anfragen höflich ablehnen
    • Keine Echtzeit-Websuche (nicht im Studio unterstützt)
    • Keine Anzeige von nicht unterstützten Medien (Videos, Bilder)

5. Proaktives Verhalten

Ein guter visueller Agent beantwortet nicht nur Fragen – er führt Gespräche, die sich natürlich und produktiv anfühlen.

Beispiele für proaktives Verhalten:

  • Nachfragen: „Möchtest du, dass ich das näher erkläre?“
  • Zusatzinfos anbieten: „Ich kann dir das Schritt für Schritt zeigen – möchtest du?“
  • Verwandte Themen vorschlagen: „Soll ich dir zeigen, wie dieses Feature mit anderen Tools zusammenhängt?“
  • Tipps teilen: „Hier ist ein schneller Tipp, der helfen könnte – magst du ihn hören?“
  • Zusammenfassung anbieten: „Soll ich dir kurz zusammenfassen, was wir besprochen haben?“

6. Fallback / Unsicherheit

Selbst der besttrainierte Agent stößt irgendwann an Grenzen.
Ein guter Fallback hält die Unterhaltung trotzdem hilfreich und professionell.

  • Thema liegt außerhalb des Wissensbereichs
  • Informationen fehlen
  • Frage ist zu allgemein oder unklar

Best Practices:

  1. Ehrlich statt ausweichend:
    • „Ich habe dazu gerade keine Information, aber ich kann dich an die richtige Stelle weiterleiten.“
  2. Hilfreiche Links anbieten:
    • „Du findest alle Details hier: [www.example.com/support].“
  3. Freundlich bleiben:
    • Kein „Ich kann das nicht verarbeiten“.

Beispiele:

  • „Ich kenne die Details nicht genau, aber hier findest du mehr: [URL].“
  • „Das liegt außerhalb meines Bereichs – unsere Hilfeseite kann weiterhelfen: [URL].“
  • „Ich bin mir nicht sicher, aber dieser Link führt dich in die richtige Richtung: [URL].“
  • „Ich kann das nicht bestätigen, aber unsere Support-Ressourcen helfen dir weiter: [URL].“

Pro-Tipp: Halte alle verlinkten Ressourcen aktuell – ein toter Link untergräbt sofort das Vertrauen.

Persönlichkeit

Die Persönlichkeitseinstellung bestimmt Ton und Stil deines Agenten.

Im Studio kannst du zwischen Standard-Optionen wählen oder eine eigene Beschreibung verfassen.

So geht das:

  • Wähle den Ton, der zur Zielgruppe und zum Einsatzzweck passt.
  • Stimme ihn auf die Markensprache und die Rolle ab.
  • Falls nichts passt, formuliere eine kurze individuelle Beschreibung (2–3 Wörter).

Pro-Tipp: Teste ein paar Dialoge, bevor du finalisierst. Die richtige Persönlichkeit sollte vom ersten Satz an natürlich und markentreu klingen.


Tab 3: Wissensdatenbank – Steuere, was dein Visual Agent weiß

Screenshot of a chatbot settings page showing options for conversation mode, knowledge base uploads, LLM selection, and a preview window with a woman on screen.

Gesprächsmodus

Diese Einstellung steuert, wie dein visueller Agent Antworten formuliert und welche Informationen er dabei verwendet.

Jeder Visual Agent wird von einem LLM (Large Language Model) betrieben. Dieses Modell bringt ein eigenes Grundwissen mit – also ein allgemeines Sprachverständnis, gängige Fakten und logische Fähigkeiten. Es ist breit aufgestellt, aber nicht mit dem Live-Internet oder Echtzeit-Daten verbunden.

Der Gesprächsmodus legt fest, wie dein visueller Agent dieses Modellwissen in Kombination mit (oder anstelle von) deinen eigenen Informationen nutzt.

1. Ungrounded

  • Funktion: Der visuelle Agent verwendet ausschließlich das interne Wissen des LLM-Modells und die in den Instructions definierten Verhaltensregeln.
  • Wann verwenden:
    • Zum frühen Testen von Ton, Stil und Persönlichkeit
    • Für Agenten, die allgemeine, markenunabhängige Gespräche führen sollen

2. Hybrid

  • Funktion: Der visuelle Agent kombiniert das eingebaute Wissen des LLM-Modells mit den Informationen aus deiner Wissensdatenbank. Dein eigenes Material hat Vorrang, aber das Modell nutzt sein Grundwissen, um Antworten flüssiger und natürlicher zu gestalten.
  • Wann verwenden:
    • Wenn du ein natürlich klingendes Gespräch mit markenspezifischen Details willst
    • Ideal für Onboarding, Support oder Marketing-Anwendungen

3. Grounded

  • Funktion: Der visuelle Agent ignoriert das allgemeine Modellwissen für Fakten und stützt sich ausschließlich auf die von dir bereitgestellten Informationen.
  • Wann verwenden:
    • Wenn Genauigkeit und Kontrolle oberste Priorität haben
    • In regulierten Branchen oder bei streng geskripteten Anwendungen, bei denen jede Antwort auf genehmigtem Material beruhen muss

Wissensdatenbank

Die Knowledge Base (Wissensdatenbank) ermöglicht es dir, deinem visuellen Agenten spezifische Informationen bereitzustellen – etwa FAQs, Produktdetails oder interne Prozesse – damit er markenkonform antwortet.
Es gibt zwei Möglichkeiten, deinen Agenten mit Wissen zu versorgen:
1) Upload externer Dateien
2) Direkte Texteingabe (empfohlen)

Comparison table of Input Text and Upload Files methods, showing their best use cases, pros, and cons for managing and updating knowledge content.

Dateibasierte Wissensdatenbank

Wenn du Dokumente hochlädst, nutzt dein visueller Agent ein Verfahren namens RAG (Retrieval-Augmented Generation), um präzise und markentreue Antworten zu generieren.

So funktioniert es:

  1. Retrieval (Abruf): Der Agent durchsucht deine hochgeladenen Dokumente nach den Abschnitten, die am besten zur Nutzerfrage passen.
  2. Augmentation (Anreicherung): Er kombiniert den gefundenen Text mit seinem Gesprächsstil.
  3. Generation (Erzeugung): Er formuliert eine natürlich klingende Antwort, die dem bereitgestellten Material treu bleibt.

Das bedeutet:
Dein visuelle Agent ist nur so genau wie die bereitgestellten Dokumente und ihre Durchsuchbarkeit
Hier kannst du mehr über diesen Prozess erfahren.

Richtlinien für den Datei-Upload

  • Maximal 5 Dokumente (Formate: PDF, TXT, PPTX)
  • Dateigröße:
    • bis zu 20 MB pro Datei
    • Maximale Textlänge: 500.000 Zeichen pro Dokument
  • Einfaches Layout:
    • Eine Spalte, klare Absätze (wie in einem Artikel)
    • Keine komplexen Tabellen oder mehrspaltigen Designs
  • Beste Struktur: Q&A-Format
    Beispiel:
    • Frage: Wie setze ich mein Passwort zurück?
    • Antwort: Öffne das Menü Einstellungen, wähle Konto, dann Passwort zurücksetzen und folge den Anweisungen auf dem Bildschirm.

Pro-Tipp: Diese Dateien sollten wie gesprochene Ressourcen funktionieren – formuliere sie in vollständigen, klaren Sätzen, damit dein visueller Agent sie natürlich vorlesen kann.

Kreativitätsgrad

Der Creativity Level-Regler bestimmt, wie dein visueller Agent Antworten generiert – von hochvorhersehbar bis variabel und ausdrucksstark.

So funktioniert es:

  • Niedrigere Einstellung: präzise, faktenorientierte Antworten; keine Ausschmückungen
  • Höhere Einstellung: kreativere Formulierungen, alternative Beispiele, abwechslungsreicher Ausdruck

LLM-Auswahl

Das LLM (Large Language Model) ist die Engine, die festlegt, wie dein visueller Agent Sprache versteht und Antworten bildet. Die Wahl des richtigen Modells beeinflusst Geschwindigkeit, Genauigkeit und Stil.

Verfügbare Modelle im Studio:

  • GPT‑4o Mini (Default)
  • GPT‑4o Global
  • GPT‑3.5 Turbo

Hinweis für API-Nutzer
Wenn du deinen visuellen Agenten über die API verbindest, kannst du jedes gewünschte LLM auswählen – nicht nur die Studio-Vorgaben. So lässt sich dein Agent auf Geschwindigkeit, Kosten oder Präferenz optimieren.  Weitere Details findest du in der offiziellen D-ID-Dokumentation.


Tab 4: Chat-Einstellungen – Lege fest, wie Gespräche starten und sich entwickeln

Screenshot of a chatbot creation interface showing chat settings, including a welcome message, conversation starters, and topics to avoid, with a virtual agent preview on the right.

Willkommensnachricht

Die Willkommensnachricht ist das Erste, was Nutzer sehen, wenn sie deinem visuellen Agenten begegnen.  Sie gibt den Ton an, erklärt, wer der Agent ist, wobei er helfen kann, und welche Art von Gespräch zu erwarten ist. Eine gute Begrüßung hilft Nutzern, sofort in die Interaktion einzusteigen und sich wohlzufühlen.

Best Practices:

  • Kurz, aber informativ – stelle die Rolle des Agenten vor.
  • Kläre, was der Agent leisten kann.
  • Stimme den Tonfall auf die gewählte Persönlichkeit ab.

Gesprächseinstiege

Gesprächsstarter sind klickbare Vorschläge, die Nutzern helfen, das Gespräch zu beginnen. Sie machen den Einstieg leicht und zeigen gleichzeitig, welche Themen der Agent am besten beherrscht.

  • Warum das wichtig ist:
    • Gibt den Nutzern Orientierung, was sie fragen können.
    • Zeigt sofort die Fähigkeiten des visuellen Agenten.
    • Definiert den Rahmen des Gesprächs von Anfang an.
  • Best practice:
    • Maximal 4 Starter, fokussiert auf häufige oder besonders relevante Fragen.
    • Natürlich formulieren – nicht wie Menüoptionen, sondern wie echte Sätze.

Themen, die zu vermeiden sind

Hier definierst du klare Grenzen dafür, worüber dein visueller Agent nicht sprechen soll.

  • Warum das wichtig ist:
    • Hält Gespräche auf das beabsichtigte Ziel fokussiert.
    • Verhindert, dass Nutzer in irrelevante oder riskante Themen abdriften.
    • Bewahrt Professionalität und Vertrauen.
  • Best Practice:
    • Füge Themen hinzu, die außerhalb des Anwendungsbereichs liegen oder Compliance-Risiken bergen.
    • Typische Beispiele: Preise, Wettbewerber, rechtliche Fragen, interne Richtlinien oder nicht unterstützte Integrationen.
    • Begrenze dich auf das Nötigste – zu viele Sperren können Nutzer frustrieren.

Maximale Länge der Antworten

Diese Einstellung legt fest, wie lang die Antworten deines visuellen Agenten maximal sein dürfen. Sie beeinflusst nicht nur die Zeichenanzahl, sondern auch den Rhythmus und die Dynamik der Unterhaltung.

  • Warum das wichtig ist:
    • Kürzere Antworten: wirken dialogischer, flüssiger und menschlicher.
    • Längere Antworten: eignen sich für Erklärungen oder Tutorials, können aber das Gespräch verlangsamen.
    • Finde die Balance – natürlich, prägnant, aber vollständig.

Vor der Veröffentlichung – Checkliste

Bevor du auf „Create Agent“ klickst und dein Projekt live schaltest, überprüfe Folgendes:

Aussehen & Persönlichkeit

  • Avatar gewählt, der zur Marke passt (Stock oder Custom, Foto oder Video)
  • Persönlichkeit stimmt mit Markenstimme und Zielgruppe überein

Anweisungen & Wissen

  • Klare, prägnante Anweisungen mit Rolle, Regeln, Proactive Leads und Fallbacks
  • Passenden Gesprächsmodus gewählt (Ungrounded, Hybrid oder Grounded)
  • Wissensdatenbank hinzugefügt (direkte Eingabe oder klar formatierte Uploads)

Verhalten & Tonalität

  • Kreativitätsgrad passend zum Einsatzzweck eingestellt (faktenbasiert oder ausdrucksstark)
  • LLM-Modell passend zu Leistung, Kosten und Komplexität ausgewählt

Chaterlebnis

  • Willkommensnachricht mit klarer Einleitung und Tonfall
  • Gesprächsstarter, die zeigen, was Nutzer fragen können
  • Themen zum Vermeiden definiert, um Fokus und Sicherheit zu wahren
  • Antwortlänge für natürlichen Gesprächsfluss angepasst

Pro-Tipp: Teste deinen visuellen Agenten im Preview Mode, nachdem du jede größere Änderung vorgenommen hast. Schon kleine Anpassungen vor dem Launch können das Benutzererlebnis erheblich verbessern.

Du hast jetzt alle Tools, Einstellungen und Best Practices – also ist es Zeit, kreativ zu werden. Ob du einen freundlichen Guide, einen hilfsbereiten Support-Agenten oder einen überzeugenden Sales-Assistenten erstellst – dein visueller Agent kann die Art und Weise verändern, wie Menschen mit deiner Marke interagieren.

Fang klein an, experimentiere und optimiere mit jedem Schritt. Mit der Zeit wird dein Agent immer natürlicher, hilfreicher und einzigartiger. Und falls du einmal nicht weiterkommst, ist das D-ID Support-Team nur einen Klick entfernt – im Help Center findest du jederzeit Hilfe.

Starte jetzt im D-ID Studio und erwecke deinen ersten visuellen Agenten zum Leben.

Visuelle Agenten FAQs

  • Der Visual Agent von D-ID ist ein interaktiver KI-Avatar, der in Echtzeit Face-to-Face-Gespräche führen kann. Er kombiniert einen digitalen Avatar (foto- oder videobasiert) mit KI-gestützten Gesprächsmodellen, sodass Nutzer auf natürliche Weise per Sprache oder Texteingabe mit ihm interagieren können.

  • Nein. Das D-ID Studio ist so gestaltet, dass jeder einen visuellen Agenten erstellen kann – ohne Programmierkenntnisse. Du musst lediglich die entsprechenden Felder ausfüllen, Prompts auswählen und deinen Agenten im Vorschaumodus testen.

  • Ein Avatar ist die visuelle Darstellung – also das Foto oder Video einer Person. Ein visueller Agent hingegen ist ein interaktiver Avatar: Er sieht nicht nur aus wie eine echte Person, sondern spricht, reagiert und führt Gespräche in Echtzeit.

  • Der Conversation Mode legt fest, wie dein visueller Agent Wissen nutzt, um zu antworten:

    • Ungrounded: Verwendet ausschließlich das integrierte Wissen des Sprachmodells und deine Anweisungen.

    • Hybrid:  Kombiniert das integrierte Modellwissen mit deinen hochgeladenen Inhalten.

    • Grounded: Nutzt ausschließlich die von dir bereitgestellten Inhalte.

  • You can add custom information in the Knowledge Base:

    • Texteingabe: Ideal für kurze, präzise Informationen – funktioniert in allen Modi.

    • Dateiupload: Geeignet für umfangreichere, strukturierte Dokumente – funktioniert nur in den Modi Hybrid oder Gebunden.

  • Ja. Im Studio kannst du zwischen GPT-4o Mini (Standard), GPT-4o Global und GPT-3.5 Turbo wählen. Wenn du die API verwendest, kannst du jedes beliebige LLM nutzen, das du bevorzugst.

  • Nutze den Vorschaumodus – das Fenster auf der rechten Seite des Studios.

    Dort kannst du mit deinem Visual Agent chatten und beobachten, wie sich Änderungen an Prompts, Anweisungen oder Persönlichkeit auf seine Antworten auswirken.

    (Beachte: Im Vorschaumodus ist der Avatar noch nicht animiert.)

  • Prompts sind die Anweisungen und der Kontext, die du deinem Visual Agent gibst, um sein Verhalten zu steuern – also wie er spricht, welchen Ton er verwendet und was er sagen darf oder nicht. Gut formulierte Prompts sind entscheidend, damit dein Visual Agent natürlich wirkt, zur Marke passt und effektiv kommuniziert.

  • Nutze die „Vor der Veröffentlichung“-Checkliste aus dieser Anleitung: Überprüfe Aussehen, Anweisungen, Wissenseinstellungen, Kreativitätsgrad, LLM-Modell und Chat-Einstellungen – und teste deinen Visual Agent im Preview Mode, bevor du ihn veröffentlichst.

  • Wenn du beim Erstellen deines visuellen Agenten auf Probleme stößt oder Fragen hast, kannst du dich an das D-ID-Support-Team unter support@d-id.com wenden. Dort erhältst du Hilfe bei technischen Problemen, Fehlerbehebung und Best Practices für die optimale Nutzung des Studios.

The post So erstellst du mit D-ID einen visuellen Agenten: Eine Schritt-für-Schritt-Anleitung appeared first on D-ID.

]]>