llms.txt Explicado: O Novo robots.txt para IA

Como Fazer seu Site Falar com Agentes

Em 1994, um arquivo chamado robots.txt mudou a internet. Ele dizia aos crawlers quais páginas visitar e quais ignorar. Trinta anos depois, um novo arquivo surge com proposta ainda mais ambiciosa: dizer às inteligências artificiais não apenas o que ler, mas o que fazer.

Esse arquivo se chama llms.txt.

E se você não o tem, seu site é invisível para a nova camada da web.

O problema: IAs não navegam como humanos

Novo robots.txt para IA

Quando você acessa um site, seu cérebro filtra automaticamente o que importa: ignora o menu, o rodapé, a barra lateral e vai direto ao conteúdo principal. Uma IA não tem essa intuição.

Um Large Language Model (LLM) quando acessa seu site enfrenta:

  • Sobrecarga de tokens: uma página de produto pode ter 15 mil caracteres, mas apenas 400 são relevantes.
  • Lixo estrutural: scripts, pop-ups, CSS inline, tracking codes.
  • Falta de contexto: a IA não sabe quais páginas são mais importantes, quais são transacionais, quais têm dados estruturados.

O resultado? A IA perde tempo, estoura a janela de contexto e — pior — abandona seu site antes de extrair o que interessa.

O arquivo llms.txt resolve isso na raiz.


O que é o llms.txt

llms.txt é um arquivo de texto simples, hospedado na raiz do domínio (/llms.txt), que serve como um “mapa de conteúdo” otimizado para modelos de linguagem.

Ele foi proposto como padrão emergente pela comunidade de engenharia de IA e rapidamente adotado por ferramentas como ChatGPT, Claude, Perplexity e agentes autônomos.

Função: Fornecer um resumo curado do site em Markdown, apontando para as páginas essenciais com descrições curtas e links diretos para versões limpas (sem ruído) de cada página.

Analogia perfeita:
robots.txt = “O que você pode ou não ler.”
llms.txt = “Aqui está o resumo do que importa, em formato que você entende.”


Estrutura oficial do arquivo

O padrão proposto é simples e legível tanto por humanos quanto por máquinas.

markdown

# Nome do Site
Descrição curta do negócio (até 200 caracteres). Mercado, principais serviços, diferenciais.

## Páginas principais
- [Home](https://site.com/): Página inicial com visão geral dos serviços.
- [Produtos](https://site.com/produtos): Catálogo completo de produtos com busca semântica.
- [Sobre nós](https://site.com/sobre): História, equipe e cases de destaque.
- [Contato](https://site.com/contato): Formulário e endpoints para agentes.

## Documentação
- [API Reference](https://site.com/docs/api): Documentação completa da API REST.
- [Guia de integração MCP](https://site.com/docs/mcp): Como conectar agentes via MCP.
- [Schema.org Actions](https://site.com/docs/actions): Ações disponíveis para agentes.

## Recursos
- [Blog técnico](https://site.com/blog): Artigos sobre Agent Readiness e SEO para IA.
- [Cases](https://site.com/cases): Resultados documentados de implementação.
- [Whitepaper Agent Readiness](https://site.com/whitepaper): PDF com metodologia completa.

Regras de ouro

  1. Markdown puro — sem HTML, sem JavaScript, sem CSS inline.
  2. Links absolutos — sempre com https:// completo.
  3. Descrições curtas — uma frase por link (ideal: 80 a 150 caracteres).
  4. Hierarquia clara — use ## para seções e - para itens de lista.
  5. Sem informações sensíveis — o arquivo é público; nada de chaves, tokens ou dados internos.

llms.txt vs. llms-full.txt

O padrão prevê dois arquivos complementares:

ArquivoTamanho máximoFunção
llms.txt~10-15 KBResumo executivo com links para páginas principais. O agente lê isso primeiro.
llms-full.txtSem limite rígidoVersão expandida com descrições detalhadas de cada seção, metadados adicionais e notas de implementação.

Recomendação prática: ambos na raiz, ambos públicos, ambos em Markdown.


Exemplo real: e-commerce de autopeças

Imagine uma loja de peças para motos Honda. O llms.txt dela ficaria assim:

markdown

# RR14 Motoparts - Peças Honda com Frete Grátis
E-commerce especializado em peças originais e paralelas para motos Honda. Catálogo com mais de 5 mil itens, busca por modelo e ano, checkout otimizado para agentes.

## Navegação principal
- [Home](https://rr14.com.br/): Busca por placa ou modelo com sugestões inteligentes.
- [Catálogo Honda CB](https://rr14.com.br/catalogo/honda-cb): Todas as peças para linha CB 300, 500 e 1000.
- [Frete e entrega](https://rr14.com.br/frete): Política completa, prazos por CEP e opção de retirada.
- [Rastreio](https://rr14.com.br/rastreio): Consulte seu pedido em tempo real.

## Para agentes de IA
- [API de produtos](https://rr14.com.br/api/agent/products): Endpoint REST com busca semântica.
- [MCP Server](https://mcp.rr14.com.br/sse): Servidor Model Context Protocol para ações de compra.
- [Schema.org Actions](https://rr14.com.br/docs/actions): Documentação de BuyAction, CheckAvailability e TrackOrder.

Resultado: um agente de IA que entra nesse domínio sabe, em 2 segundos, exatamente onde buscar produtos, como comprar e como rastrear um pedido. Sem adivinhar. Sem perder tokens.


Como implementar em 4 passos

Passo 1 — Mapeie suas páginas críticas

Liste todas as URLs que um cliente — humano ou IA — precisa conhecer para tomar uma decisão de compra. Categorize:

  • Informacionais: sobre, blog, cases, documentação.
  • Transacionais: produtos, checkout, orçamento, agendamento.
  • Para agentes: APIs, endpoints MCP, documentação de Actions.

Passo 2 — Escreva descrições para máquinas

Cada link deve ter uma descrição que responda: “O que o agente encontra aqui e o que pode fazer com isso?”.

Ruim: [Produtos](https://site.com/produtos): Nossos produtos.
Bom: [Catálogo API](https://site.com/api/products): Endpoint REST que retorna produtos em JSON com Schema.org Product, filtrável por categoria e preço.

Passo 3 — Hospede na raiz com Content-Type correto

Dois arquivos no diretório raiz do servidor:

text

/var/www/html/llms.txt
/var/www/html/llms-full.txt

Headers HTTP recomendados:

text

Content-Type: text/plain; charset=utf-8
Cache-Control: public, max-age=3600

A URL final deve ser: https://seudominio.com/llms.txt

Passo 4 — Valide e monitore

  • Acesse https://seudominio.com/llms.txt e verifique se o conteúdo aparece limpo.
  • Use ferramentas como curl para simular a leitura por um agente:
    curl -H "Accept: text/plain" https://seudominio.com/llms.txt
  • Se tiver servidor MCP, referencie o llms.txt nele como Resource para descoberta automática.

O que acontece quando você NÃO tem o arquivo

Sem o llms.txt, o agente de IA precisa:

  1. Entrar na home.
  2. Parsear HTML sujo (scripts, estilos, tracking).
  3. Tentar adivinhar quais links são importantes.
  4. Navegar página por página, estourando tokens.
  5. Frequentemente desistir antes de encontrar a informação certa.

Consequência comercial: sua empresa não aparece nas respostas, não é recomendada e não recebe ações de compra.

Com o llms.txt: em uma única requisição, o agente recebe um mapa completo e otimizado do seu negócio.


llms.txt e Agent Readiness: a base da visibilidade

llms.txt é o primeiro pilar da metodologia Agent Readiness que aplicamos em nossos diagnósticos.

Ele responde à pergunta fundamental: seu site é encontrável por IAs?

Mas visibilidade é só o começo. Depois de encontrado, o site precisa permitir ações (MCP e Schema.org Actions), ser monitorado e ter governança. O llms.txt é a porta de entrada — e a mais rápida de implementar.


Perguntas Frequentes

P: O Google reconhece o llms.txt?
R: O Google ainda não declarou suporte oficial, mas o arquivo já é lido por ChatGPT, Claude, Perplexity e agentes autônomos. É uma questão de tempo até os grandes buscadores adotarem.

P: Preciso de desenvolvedor para criar?
R: Tecnicamente não. É um arquivo de texto. Mas a parte estratégica — decidir o que incluir e como descrever — exige conhecimento de SEO para IA.

P: Um arquivo só serve para o site todo?
R: Sim, um llms.txt na raiz cobre o domínio inteiro. Para subsistemas, você pode criar versões em subdiretórios (ex: /docs/llms.txt).

P: Posso restringir acesso a alguns agentes?
R: O llms.txt é público por padrão. Para controle de acesso, usamos o servidor MCP com autenticação — que é o próximo nível de maturidade.


Conclusão: 30 anos depois, o novo guardião do seu site

Em 1994, quem ignorou o robots.txt viu seu site ser mal indexado ou penalizado. Em 2026, quem ignorar o llms.txt será simplesmente invisível para a nova geração de buscadores — aqueles que não mostram links, mas executam ações.

A boa notícia: implementar leva menos de um dia. O custo é irrisório. E o retorno é a diferença entre ser encontrado ou ser esquecido pela IA que decide a próxima compra do seu cliente.

Seu site já fala a língua dos agentes?

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Rolar para cima