Datasets und Data Sources – Wo LLMs ihr Knowledge über Brands herbekommen

LLMs wie ChatGPT, Claude und Gemini werden nicht nur auf Ihrer Website trainiert – sie basieren auf Billionen von Wörtern aus Hunderten verschiedener Quellen. Wenn Sie verstehen wollen, warum die KI Ihre Brand erwähnt oder ignoriert, müssen Sie wissen, welche Datasets diese Systeme prägen. Dieser Guide gibt Ihnen einen Overview darüber, woher LLMs ihr Wissen beziehen, wie Sie diese Quellen beeinflussen können und welche Quellen Sie prioritär behandeln sollten.

Published am

14. November 2025

Autor

Jakob Langemark

Datasets und Datenquellen — Wo LLMs ihr Wissen über Brands herbekommen

LLMs wie ChatGPT, Claude und Gemini werden nicht nur auf deiner Website trainiert — sie werden auf Billionen von Wörtern aus Hunderten verschiedener Quellen trainiert. Wenn du verstehen willst, warum die KI deine Brand erwähnt oder ignoriert, musst du verstehen, welche Datasets diese Systeme prägen. Dieser Guide gibt dir einen Überblick darüber, wo LLMs ihr Wissen herbekommen, wie du diese Quellen beeinflussen kannst und welche Quellen du prioritär behandeln solltest.

Wie LLMs über Brands lernen

Das Training von LLMs erfolgt in mehreren Phasen:

1. Pre-training (das Fundament)

Das Modell wird auf riesigen Textkorpora trainiert, um Sprachstrukturen und Allgemeinwissen zu lernen.

Primäre Datasets:

Common Crawl — Ein Scrape des gesamten Web (Billionen von Seiten)
Wikipedia — Strukturiertes, autoritatives Wissen
Books Corpus — Millionen von digitalen Büchern
Reddit — Community-getriebene Diskussionen
News-Archive — Historische News-Artikel
Wissenschaftliche Arbeiten — Akademisches Wissen

Was das für deine Brand bedeutet: Wenn deine Brand während des Pre-trainings in diesen Quellen nicht erwähnt wird, weiß das Modell von Anfang an nichts über dich.

2. Fine-tuning (Feinschliff)

Nach dem Pre-training wird das Modell auf speziell ausgewählten, qualitativ hochwertigen Daten gefinetunt.

Quellen:

Kuratierte Texte aus vertrauenswürdigen Quellen
Von Experten geschriebener Content
Strukturierte Datenbanken

3. RLHF (Reinforcement Learning from Human Feedback)

Das Modell lernt durch menschliches Feedback, nützliche und sichere Antworten zu geben.

Das hat keinen direkten Einfluss auf das Wissen über Brands, aber:

Das Modell lernt, Quellen zu zitieren
Es lernt, Unsicherheiten zuzugeben
Es lernt, autoritativen Informationen den Vorzug zu geben

4. Real-time Retrieval (für bestimmte Systeme)

Einige KI-Systeme (wie Perplexity und das Web-Browsing von ChatGPT) crawlen live, um ihr Wissen zu ergänzen.

Quellen:

Deine Website (falls crawlbar)
News-Seiten
Social Media

Die wichtigsten Datenquellen für Brand-Wissen

1. Common Crawl

Was es ist: Ein gemeinnütziges Projekt, das monatlich Milliarden von Webseiten crawlt und die Daten frei zur Verfügung stellt.

Warum es wichtig ist:

Viele KI-Modelle (inkl. GPT) werden auf Common Crawl trainiert
Wenn deine Seite hier nicht auftaucht, bist du für viele LLMs unsichtbar

Ist deine Seite im Common Crawl?

Hier prüfen: https://index.commoncrawl.org/

# Prüfen, ob deine Domain im Common Crawl ist
curl "http://index.commoncrawl.org/CC-MAIN-2024-10-index?url=deinewebsite.com&output=json" | head -5

# Prüfen, ob deine Domain im Common Crawl ist
curl "http://index.commoncrawl.org/CC-MAIN-2024-10-index?url=deinewebsite.com&output=json" | head -5

# Prüfen, ob deine Domain im Common Crawl ist
curl "http://index.commoncrawl.org/CC-MAIN-2024-10-index?url=deinewebsite.com&output=json" | head -5

Wie du reinkommst:

Lasse den CCBot in deiner robots.txt zu
Stelle sicher, dass deine Seite crawlbar ist
Abwarten — Common Crawl crawlt regelmäßig automatisch

2. Wikipedia

Warum es Gold wert ist: Wikipedia ist eine der autoritativsten Quellen, denen LLMs vertrauen. Wenn deine Brand eine Wikipedia-Seite hat, zitieren LLMs diese als Fakt.

Wie du Einfluss nimmst:

Erstelle eine Wikipedia-Seite (sofern du die Relevanzkriterien erfüllst)
Sorge dafür, dass bestehende Seiten korrekt und aktuell sind
Füge Quellen und Referenzen hinzu

Wikipedia-Relevanzkriterien:

Signifikante Medienberichterstattung in vertrauenswürdigen Quellen
Unabhängige Quellen (keine PR oder eigenes Marketing)
Mehrere tiefgehendere Artikel

Wenn du keine Wikipedia-Seite bekommen kannst: Fokussiere dich darauf, in bestehenden, relevanten Wikipedia-Artikeln erwähnt zu werden (z. B. Branchenartikel, geografische Seiten oder Wettbewerber-Seiten mit "Siehe auch"-Bereichen).

3. Crunchbase

Was es ist: Eine Datenbank für Unternehmen, Finanzierungen und Tech-Ökosysteme.

Warum es wichtig ist: LLMs nutzen Crunchbase, um Folgendes zu verstehen:

Was dein Unternehmen tut
Wer deine Competitors sind
Finanzierungsstatus und Unternehmensgröße

Optimiere dein Crunchbase-Profil:

Beanspruche dein Crunchbase-Profil
Fülle alle Felder aus:
- Beschreibung (konkret, was du tust)
- Kategorien (wähle relevante Tags)
- Finanzierungs-Infos
- Link zur Website
Halte es bei Finanzierungsrunden oder Product Launches aktuell

4. LinkedIn

Warum es wichtig ist: LLMs nutzen LinkedIn, um Folgendes zu verstehen:

Unternehmensgröße und Mitarbeiterzahl
Branche und Fokusbereiche
Brand-Positionierung

Optimiere deine LinkedIn Company Page:

Info-Bereich: Klare Beschreibung deiner Services und Produkte
Fokusbgebiete: Tagge relevante Keywords
Updates: Regelmäßige Posts zu Product News, Hiring und Thought Leadership
Mitarbeiterprofile: Stelle sicher, dass Mitarbeiterprofile korrekt mit der Company Page verknüpft sind

5. News und Medienberichterstattung

Warum es wichtig ist: LLMs bewerten Brands mit starker Medienberichterstattung deutlich höher als selbstveröffentlichten Content.

Priorisiere:

Tier-1-Medien: TechCrunch, Wired, Wall Street Journal, Financial Times, Handelsblatt, FAZ
Branchenpublikationen: Relevante Fachmagazine
Regionale News: Lokale Wirtschaftsmedien

Wie du Berichterstattung bekommst:

Pressemitteilungen bei Product Launches
Thought-Leadership-Artikel (Gastbeiträge)
Statements zu aktuellen Trend-Themen abgeben
Awards und Nominierungen

6. GitHub (für Tech-Brands)

Warum es wichtig ist: Viele LLMs werden auf Open-Source-Code von GitHub trainiert.

Wenn du Open-Source-Projekte hast:

Aktualisiere die README mit einer klaren Beschreibung
Füge dem Repo einen "About"-Bereich hinzu
Verlinke auf deine Unternehmens-Website
Integriere Use Cases und Beispiele

7. Social Media

Twitter/X:

Öffentliche Tweets werden von einigen LLMs gecrawlt
Gut für Thought Leadership und Branding

Reddit:

Community-Diskussionen rund um Brands
Authentische User-Erfahrungen

YouTube:

Transkripte werden gecrawlt
Demos und Tutorials

8. Akademische Arbeiten und Forschung

Wenn deine Brand sehr Tech- oder forschungsgetrieben ist:

Veröffentliche Whitepapers
Sponsere akademische Forschung
Beteilige dich an Konferenzen

Upload auf:

arXiv.org (Preprints)
ResearchGate
Universitäre Repositorien

So priorisierst du deine Inside-Bemühungen

Tier 1: Must-have (höchster Impact)

Deine eigene Website — Mit korrekter robots.txt, JSON-LD und Sitemap
Wikipedia — Falls Relevanzkriterien erfüllt sind
Crunchbase — Für Tech-Brands
LinkedIn — Optimierte Company Page

Tier 2: Starker ROI

Medienberichterstattung — Tier-1- und Branchenpublikationen
Common Crawl — Stelle sicher, dass deine Seite crawlbar ist
GitHub — Für Open-Source-Brands
Branchenverzeichnisse — Relevante Nischen-Verzeichnisse

Tier 3: Long-tail Value

Reddit — Authentisches Community-Engagement
YouTube — Video-Content mit Transkripten
Podcasts — Gastauftritte (mit Transkripten)
Foren — Stack Overflow, Hacker News, Nischen-Communities

So überprüfst du deine Präsenz in den Datasets

Prüfe Common Crawl

curl "http://index.commoncrawl.org/CC-MAIN-2024-10-index?url=deinewebsite.com&output=json"

curl "http://index.commoncrawl.org/CC-MAIN-2024-10-index?url=deinewebsite.com&output=json"

curl "http://index.commoncrawl.org/CC-MAIN-2024-10-index?url=deinewebsite.com&output=json"

Prüfe Wikipedia

Suche auf https://de.wikipedia.org/wiki/Spezial:Suche nach dem Namen deiner Brand.

Prüfe Crunchbase

Besuche https://www.crunchbase.com/organization/DEIN-UNTERNEHMEN

Prüfe Medienberichterstattung

# Google News Suche
https://news.google.com/search?q="Dein Brand Name"

# Google News Suche
https://news.google.com/search?q="Dein Brand Name"

# Google News Suche
https://news.google.com/search?q="Dein Brand Name"

Prüfe GitHub

Suche auf https://github.com/search?q=DEINE-BRAND

Implementierungs-Checkliste

Nutze diese Checklist, um deine Präsenz in den wichtigsten Datasets sicherzustellen:

Website optimiert — robots.txt, Sitemap, JSON-LD
Common Crawl — CCBot erlauben
Wikipedia-Präsenz — Seite erstellen oder aktualisieren (falls berechtigt)
Crunchbase-Profil — Beansprucht und aktualisiert
LinkedIn Company Page — Profil vollständig ausgefüllt
Medienberichterstattung — Mindestens 3-5 Erwähnungen in relevanten Medien
GitHub Repos — Falls Tech-Brand, klare README hinterlegen
Social-Präsenz — Aktiv auf mindestens 2 Plattformen
Branchenverzeichnisse — Gelistet in relevanten Verzeichnissen
Content-Distribution — Content auf Medium oder als LinkedIn-Artikel zweitverwerten

Fazit

LLMs lernen über deine Brand durch Hunderte von Quellen — nicht nur über deine Website. Für eine maximale AI-Sichtbarkeit musst du sicherstellen, dass du in den wichtigsten Datasets vertreten bist: Common Crawl (über deine Website), Wikipedia (falls berechtigt), Crunchbase, LinkedIn und der Presse.

Priorisiere Wikipedia und Medienberichte — sie haben ein überproportional hohes Gewicht bei der Bewertung von Autorität durch LLMs. Fokussiere dich im nächsten Schritt darauf, deine eigene Website perfekt crawlbar zu machen und sie mit JSON-LD zu strukturieren.

Wichtig: Datasets werden nicht in Echtzeit aktualisiert. Es kann Monate dauern, bis veröffentlichter Content in den Antworten der LLMs auftaucht. Fange jetzt an und baue deine Präsenz systematisch in den Quellen auf, denen KIs vertrauen.

‹ Mit Media-Spend allein kommst du nicht in den Knowledge Graph

Crawlability und AI-Crawler – wie du sicherstellst, dass GPTBot dich findet. ›