Datasæt og datakilder – hvor LLM'er henter deres viden om brands

LLM'er som ChatGPT, Claude og Gemini trænes ikke på dit website alene – de trænes på billioner af ord fra hundredvis af forskellige kilder. Hvis du vil forstå, hvorfor AI nævner eller ignorerer dit brand, skal du forstå, hvilke datasæt der former disse systemer. Denne guide giver dig overblik over, hvor LLM'er henter deres viden, hvordan du kan påvirke disse kilder, og hvilke kilder du bør prioritere.

Udgivet den

14. november 2025

Forfatter

Jakob Langemark

Følg os

Datasæt og datakilder – hvor LLM'er henter deres viden om brands

LLM'er som ChatGPT, Claude og Gemini trænes ikke på dit website alene – de trænes på billioner af ord fra hundredvis af forskellige kilder. Hvis du vil forstå, hvorfor AI nævner eller ignorerer dit brand, skal du forstå, hvilke datasæt der former disse systemer. Denne guide giver dig overblik over, hvor LLM'er henter deres viden, hvordan du kan påvirke disse kilder, og hvilke kilder du bør prioritere.

Hvordan LLM'er lærer om brands

LLM-træning sker i flere faser:

1. Pre-training (fundamentet)

Modellen trænes på massive text-corpus for at lære sprogets struktur og almen viden.

Primære datasæt:

  • Common Crawl – Scrape af hele webbet (billioner af sider)

  • Wikipedia – Struktureret, autoritativ viden

  • Books corpus – Millioner af digitale bøger

  • Reddit – Community-driven diskussioner

  • News archives – Historiske nyhedsartikler

  • Scientific papers – Akademisk viden

Hvad det betyder for dit brand:
Hvis dit brand ikke er nævnt i disse kilder under pre-training, ved modellen intet om dig fra starten.

2. Fine-tuning (refinement)

Efter pre-training bliver modellen fine-tunet på specifikt udvalgt, højkvalitets data.

Kilder:

  • Kurateret tekst fra troværdige kilder

  • Ekspertskrevet indhold

  • Strukturerede databaser

3. RLHF (Reinforcement Learning from Human Feedback)

Modellen lærer at give nyttige, sikre svar baseret på human feedback.

Dette påvirker ikke direkte brand-viden, men:

  • Modellen lærer at cite kilder

  • Lærer at erkende usikkerhed

  • Lærer at prioritere autoritativ information

4. Real-time retrieval (for nogle systemer)

Nogle AI-systemer (som Perplexity og ChatGPT's web browsing) crawler live for at supplere deres viden.

Kilder:

  • Dit website (hvis crawlable)

  • News sites

  • Social media

De vigtigste datakilder for brand-viden

1. Common Crawl

Hvad det er:
Et nonprofit-projekt der monthly crawler milliarder af websider og gør data frit tilgængeligt.

Hvorfor det betyder noget:

  • Mange AI-modeller (inkl. GPT) trænes på Common Crawl

  • Hvis dit site ikke er her, er du usynlig for mange LLM'er

Er dit site i Common Crawl?

Check her: https://index.commoncrawl.org/

# Check if your domain is in Common Crawl
curl "http://index.commoncrawl.org/CC-MAIN-2024-10-index?url=ditwebsite.dk&output=json" | head -5

Hvordan kommer du ind:

  • Tillad CCBot i robots.txt

  • Sørg for dit site er crawlable

  • Vent – Common Crawl crawler periodisk automatisk

2. Wikipedia

Hvorfor det er guld:
Wikipedia er en af de mest autoritative kilder LLM'er stoler på. Hvis dit brand har en Wikipedia-side, vil LLM'er citere det som fakta.

Hvordan påvirke:

  • Opret en Wikipedia-side (hvis du opfylder notability-kriterier)

  • Sørg for eksisterende sides er accurate og opdaterede

  • Tilføj kilder og referencer

Wikipedia notability-kriterier:

  • Betydelig mediedækning i troværdige kilder

  • Independent sources (ikke PR eller egen marketing)

  • Multiple in-depth articles

Hvis du ikke kan få en Wikipedia-side:
Fokusér på at blive nævnt i eksisterende relevante Wikipedia-artikler (fx industri-artikler, geographic pages, eller competitor pages med "See also" sections).

3. Crunchbase

Hvad det er:
Database af virksomheder, funding, og tech ecosystems.

Hvorfor det betyder noget:
LLM'er bruger Crunchbase til at forstå:

  • Hvad din virksomhed laver

  • Hvem dine konkurrenter er

  • Funding stage og størrelse

Optimér din Crunchbase profil:

  1. Claim dit Crunchbase-profil

  2. Udfyld alle felter:

    • Description (specifikt hvad I laver)

    • Categories (vælg relevante tags)

    • Funding info

    • Website link

  3. Hold det opdateret ved funding rounds eller product launches

4. LinkedIn

Hvorfor det er vigtigt:
LLM'er bruger LinkedIn til at forstå:

  • Company size og ansatte

  • Industry og fokusområder

  • Brand positioning

Optimér din LinkedIn Company Page:

  • About section: Klar beskrivelse af hvad I laver

  • Specialities: Tag relevant keywords

  • Updates: Regelmæssige posts om product news, hiring, thought leadership

  • Employee profiles: Ansattes profiler forbinder sig til company page

5. News og Media Coverage

Hvorfor det betyder noget:
LLM'er værdiger brands med mediedækning højere end self-published content.

Prioriter:

  • Tier 1 media: TechCrunch, Wired, Wall Street Journal, Financial Times

  • Industry publications: Relevante trade journals

  • Regional news: Lokale business-medier

Sådan får du coverage:

  • Press releases ved product launches

  • Thought leadership articles (guest posts)

  • Comment på trending topics

  • Awards og recognitions

6. GitHub (for tech brands)

Hvorfor det betyder noget:
Mange LLM'er trænes på open-source kode fra GitHub.

Hvis du har open-source projekter:

  • Opdater README med klar beskrivelse

  • Tilføj "About" section til repo

  • Link til din company website

  • Include use cases og eksempler

7. Social Media

Twitter/X:

  • Public tweets crawles af nogle LLM'er

  • Thought leadership og branding

Reddit:

  • Community discussions omkring brands

  • Authentic user experiences

YouTube:

  • Transskriptioner crawles

  • Product demos og tutorials

8. Academic Papers og Research

Hvis dit brand er tech eller research-driven:

  • Publish whitepapers

  • Sponsor academic research

  • Contribute til conferences

Upload til:

Hvordan prioritere dine indsatser

Tier 1: Must-have (højeste impact)

  1. Dit eget website – Med korrekt robots.txt, JSON-LD, sitemap

  2. Wikipedia – Hvis eligible

  3. Crunchbase – For tech brands

  4. LinkedIn – Company page optimeret

Tier 2: Stærk ROI

  1. News coverage – Tier 1 og industry publications

  2. Common Crawl – Sikr dit site er crawlable

  3. GitHub – For open-source brands

  4. Industry directories – Relevante niche-directories

Tier 3: Long-tail value

  1. Reddit – Authentic community engagement

  2. YouTube – Video content med transskriptioner

  3. Podcasts – Guest appearances (med transskriptioner)

  4. Forums – Stack Overflow, Hacker News, niche communities

Sådan verificér du er i datasættene

Check Common Crawl

curl "http://index.commoncrawl.org/CC-MAIN-2024-10-index?url=ditwebsite.dk&output=json"

Check Wikipedia

Search på https://en.wikipedia.org/wiki/Special:Search for dit brand navn.

Check Crunchbase

Visit https://www.crunchbase.com/organization/YOUR-COMPANY

Check news coverage

# Google News search
https://news.google.com/search?q="Your Brand Name"

Check GitHub

Search på https://github.com/search?q=YOUR-BRAND

Implementation Checklist

Brug denne tjekliste til at sikre presence i vigtige datasæt:

  1. Website optimeret – robots.txt, sitemap, JSON-LD

  2. Common Crawl – Tillad CCBot

  3. Wikipedia presence – Opret eller opdater side (hvis eligible)

  4. Crunchbase profil – Claimed og opdateret

  5. LinkedIn company page – Komplet profil

  6. News coverage – Minimum 3-5 mentions i relevante medier

  7. GitHub repos – Hvis tech brand, clear README

  8. Social presence – Active på mindst 2 platforme

  9. Industry directories – Listed i relevante directories

  10. Content distribution – Syndicate content til medium, LinkedIn articles

Konklusion

LLM'er lærer om dit brand gennem hundredvis af kilder – ikke kun dit website. For maksimal AI-synlighed skal du sikre presence i de datasæt der betyder mest: Common Crawl (via dit website), Wikipedia (hvis eligible), Crunchbase, LinkedIn, og news coverage.

Prioriter Wikipedia og news coverage – de har disproportionel vægt i hvordan LLM'er vurderer autoritet. Dernæst fokusér på at gøre dit eget website perfekt crawlable og struktureret med JSON-LD.

Husk: Datasæt opdateres ikke i realtime. Det kan tage måneder fra du udgiver indhold til det reflekteres i LLM-svar. Start nu, og byg systematisk presence i de kilder AI-systemer stoler på.