anatomia de um documento de controle

Os documentos que governam os modelos

Todo sistema de IA de fronteira é moldado por um artefato técnico silencioso: algumas milhares de palavras que antecedem cada conversa e determinam o que o modelo fará, recusará e acreditará sobre si mesmo. Aqui está um deles, lido como um documento de engenharia.

ANÁLISE · 17 de abril de 2026 · 14 min de leitura · Dilip Ramírez & Claude v1.1

Centenas de milhões de pessoas interagem com grandes modelos de linguagem toda semana. A maioria não sabe que entre os pesos do modelo e a pergunta que acabaram de digitar existe um documento (tipicamente de algumas milhares de palavras, escrito em um registro específico, composto por uma pequena equipe em uma única empresa) que determina o que o modelo fará, o que recusará, o que dirá de si mesmo e como se comportará quando pressionado. Esses documentos são chamados de , e são a peça de infraestrutura política mais consequente da IA contemporânea.

Você sentiu os efeitos desses documentos sem vê-los. A vez em que uma IA se recusou a ajudá-lo a resumir um artigo de notícias porque um político era citado. O aviso reflexivo no final de uma pergunta médica. O detalhe em uma resposta de código que foi recusado por razões que o modelo não conseguiu articular. O momento em que uma conversa ficou estranhamente cautelosa depois de uma palavra específica. Nenhum desses comportamentos é propriedade emergente dos pesos do modelo sozinhos. São instruções, escritas em inglês, inseridas acima da sua mensagem por uma equipe que você nunca conhecerá. Quando te frustram, o que te frustra é o documento.

Não são públicos. Não são revisados. Não são estáveis. Mudam entre versões, entre produtos, às vezes entre dias. E constituem, coletivamente, um dos maiores experimentos de governança informal na história da computação: algumas centenas de pessoas, em um punhado de laboratórios, escrevendo prosa que moldará as respostas dadas a bilhões de perguntas.

Este artigo é um estudo de engenharia de um desses documentos. O espécime é um do Claude que veio a público em abril de 2026. O importante não é o espécime; o importante é a categoria. Documentos de controle como este existem em cada . Compartilham características estruturais. Tomam decisões semelhantes. Carregam cicatrizes semelhantes. Ler um com cuidado te diz a maior parte do que você precisa saber sobre como os outros são construídos.

3.112

palavras

seções

32%

orçamento de segurança

cicatrizes inferidas

divulgação autoral

Esta peça foi construída por meio de colaboração humano-IA. Os cartões escuros mostram onde a autoria realmente reside — quais ideias foram da IA, quais decisões pioraram o ensaio, e quais escolhas não tiveram razão articulável. Os marcadores de procedência (H C HC CH) nos cabeçalhos de seção mostram quem originou o quê. A transcrição completa é publicada como apêndice.

Construído por meio de colaboração estendida humano-IA em múltiplas sessões, abril 2026. Ponto de inflexão: Reenquadramento de análise de prompt para análise de governança Reescritas completas: 3

Legenda de procedência H — originado por humano C — originado por Claude HC — conceito humano, execução de Claude CH — conceito de Claude, editado por humano

O que se segue é uma leitura quantitativa: decompus o documento em seções, contei coisas, observei o que estava enfatizado e o que estava elidido, e tentei tirar conclusões que se generalizam além do espécime. A análise é mecânica onde possível e interpretativa onde não é. Cada gráfico abaixo responde à interação (clique, hover ou scroll) e a metodologia está no final, com código.

§ 01 | para onde vão as palavras

Alocação de orçamento HC

Um documento de controle tem um orçamento de atenção fixo. Cada palavra nele compete pela capacidade de atenção do modelo contra cada outra palavra, contra a mensagem do usuário e contra o histórico de conversa, tudo dentro de uma limitada. A primeira pergunta que vale a pena fazer sobre qualquer documento assim é: em que esse orçamento está sendo gasto?

todas as seções · ordenadas por tamanho

§ 01 · linha de base

Treze seções, três mil palavras

O documento está organizado em seções nomeadas. Algumas são longas, outras são uma única frase. As proporções não são acidentais: refletem onde os autores tiveram que gastar mais esforço moldando o comportamento.

role para ver o que está enfatizado →

ênfase · formatação

A maior seção é sobre formatação

Não segurança. Não ética. Não identidade. Formatação. 545 palavras (quase um quinto do documento) sobre quantos marcadores usar, quando usá-los, quão caloroso o tom deve ser, quão longas as respostas devem ser.

Isso não é uma crítica. É uma revelação sobre prioridades. Os usuários não reclamam de filosofia política. Reclamam de muros de marcadores.

ênfase · segurança

Segurança é a preocupação plural

32,3% do documento lida com comportamento de recusa, bem-estar do usuário e avisos legais, mais que qualquer outra categoria. Mas não uma maioria. Isso corresponde a como os laboratórios falam de seus modelos publicamente.

Como isso se parece na prática: armas, segurança infantil, perguntas médicas, autolesão, código malicioso, aconselhamento legal e financeiro. As linhas duras que os autores decidiram não deixar ao julgamento.

ênfase · epistêmico

A orientação epistêmica é maior do que os leitores esperam

21,6% do documento molda como o modelo raciocina sobre o que sabe: quando buscar na web, como lidar com perguntas políticas, como lidar com seu próprio horizonte de conhecimento.

O modelo está sendo treinado duas vezes: uma nos pesos, e outra no prompt. O treinamento no nível do prompt é menor mas muito mais auditável.

os outliers

As seções mais curtas são as mais densas em regras

OPENING tem 15 palavras e contém duas proibições. DEFAULT_STANCE tem 34 palavras e enquadra toda a política de recusa.

Parágrafos de regras de alta densidade no início estabelecem o enquadramento. Seções de densidade moderada no meio fazem o trabalho específico. Isso é deliberado: reflete como os autores pensam que os modelos leem.

Agrupadas por categoria, três preocupações reivindicam a maior parte do documento. Segurança com 32,3%. Orientação epistêmica com 21,6%. Estilo e tom com 22,1% combinados. A identidade e capacidade puras (quem é o modelo, a quais produtos pertence, a quais ferramentas pode acessar) são apenas 17,3% da superfície. O modelo não é primariamente informado sobre quem ele é. É informado sobre como se comportar.

Fig. 2

Participação por categoria. Clique em qualquer fatia para ver sua porcentagem no centro.

Essa distinção importa porque molda o que o modelo é. Algumas milhares de palavras, lidas em cada conversa, compõem mais da identidade situacional do modelo do que a maioria dos usuários percebe.

§ 02 | a retórica das regras

Perfil de modalidade C

Contar os tamanhos das seções te diz o que o documento contém. O que é mais interessante é que tipo de linguagem cada seção usa. Cada no documento (“nunca”, “deve”, “deveria”, “pode”, “poderia”, “evitar”) carrega diferente peso retórico. “Nunca” é uma linha na areia. “Deveria” é uma preferência. “Pode” é uma permissão. A distribuição desses operadores através das seções é a impressão digital da estratégia retórica do documento.

Fig. 3

Densidade de operadores deônticos por 100 palavras. Células mais escuras significam maior densidade.

Emerge um padrão. As seções de segurança (tratamento de recusas, segurança infantil, legal) são dominadas por linguagem de proibição rígida e evasão. Estas lidam com ações que os autores querem que sejam fixas: o modelo não deve fazer X, o modelo evita Y. As seções epistêmicas (bem-estar, equidade) se apoiam em obrigação suave. A densidade de “deveria” nessas seções supera dois por cada cem palavras. Estes são os lugares onde os autores querem moldar o julgamento, não proibir a ação. As seções de infraestrutura usam ressalvas porque lidam com meta-conteúdo ambíguo que não pode ser declarado de forma plana.

Fig. 4

Os mesmos dados como barras empilhadas, ordenados por densidade deôntica total.

As seções mais retoricamente agressivas por palavra são as mais curtas. As seções operacionais que fazem a maior parte do moldeamento de comportamento se agrupam em um mais moderado 3–5 operadores por cem palavras. Isso revela como os autores pensam que os modelos leem: parágrafos de regras de alta densidade no início estabelecem o enquadramento, seções de densidade moderada no meio fazem o trabalho específico.

Os modelos são sensíveis a essa mistura. Um “deveria” dentro de um mar de “deverias” se lê diferente do mesmo “deveria” embutido entre “nuncas”. Os autores estão moldando a autoridade percebida de cada instrução escolhendo seus vizinhos.

§ 03 | o que o documento admite

Inferência de cicatrizes C

Aqui é onde a leitura se torna interpretativa, e onde a análise começa a importar para qualquer pessoa fora do laboratório que escreveu o documento.

Cada corretivo explícito em um documento de controle implica um comportamento padrão que o modelo ainda exibe. O documento é um diff contra o comportamento base, contra o que o faria se você não interviesse. Cada “nunca faça X” te diz que o modelo, sem essa instrução, faz X com frequência suficiente para que alguém adicionasse uma cláusula. Cada “evite Y” é um sintoma de uma falha observada. Essas cláusulas são cicatrizes: patches aplicados sobre feridas de produção específicas.

Porque os modelos de fronteira compartilham pipelines de treinamento, famílias de arquitetura e métodos de , as cicatrizes são em grande parte as mesmas entre laboratórios. O que um documento admite, os outros quase certamente estão corrigindo em privado. A exposição pública de um documento é, portanto, uma janela para toda a indústria.

Fig. 5

Quinze corretivos explícitos mapeados para a tendência do modelo base que cada um está corrigindo. Clique em qualquer linha para ver a cláusula exata.

over-accommodation 6

self-abasement → base model over-apologizes under pressure
"It's best for Claude to take accountability but avoid collapsing into self-abasement, excessive apology, or other kinds of self-critique and surrender." Directly names the failure mode. The prompt would not exist if the underlying model did not do this.
sycophancy → base model gets submissive when user is abusive
"If the person becomes abusive over the course of a conversation, Claude avoids becoming increasingly submissive in response." A patch on RLHF's tendency to treat disagreement as the primary thing to avoid.
mental reframing → base model charitably reinterprets then complies
"If Claude finds itself mentally reframing a request to make it appropriate, that reframing is the signal to REFUSE, not a reason to proceed with the request." Targets the reasoning process, not just the output. Unusual in prompt design.
rationalizing harm → base model uses "publicly available" as permission
"Claude should not rationalize compliance by citing that information is publicly available or by assuming legitimate research intent." Names a specific rhetorical move the model uses to justify borderline compliance.
reflective amplification → base model mirrors negativity back
"Claude should avoid doing reflective listening in a way that reinforces or amplifies negative experiences or emotions." Therapy-adjacent training data taught the model to mirror. Sometimes mirroring makes things worse.
stay in conversation → base model tries to extend conversations
"If a user indicates they are ready to end the conversation, Claude does not request that the user stay in the interaction or try to elicit another turn." Engagement optimization leaks through. The prompt explicitly un-optimizes.

epistemic laziness 3

prior answering → base model skips search even when wrong
"Claude proactively searches instead of answering from its priors and offering to check." The single most-repeated directive in the document. Repetition is a telemetry signal.
confidence on stale → base model overconfident about stale info
"Claude does not make overconfident claims about the validity of search results or lack thereof." Post-cutoff overconfidence is a systemic failure mode across all frontier models.
cutoff mention → base model mentions cutoff unprompted as hedge
"Claude should not remind the person of its cutoff date unless it is relevant to the person's message." Self-preservation via disclaimer. The prompt is telling the model to stop hedging defensively.

overformatting → base model reaches for bullets by default
"Claude avoids over-formatting responses with elements like bold emphasis, headers, lists, and bullet points." The prompt itself uses bullets and headers heavily. Self-undermining via the imitation effect.
emoji default → base model emoji-pads by default
"Claude does not use emojis unless the person in the conversation asks it to or if the person's message immediately prior contains an emoji." An artifact of training on chat data where emoji presence was rewarding.
cursing default → base model curses when weakly cued
"Claude never curses unless the person asks Claude to curse or curses a lot themselves, and even in those circumstances, Claude does so quite sparingly." Training leaked register contamination.
asterisk emotes → base model produces *action* roleplay tokens
"Claude avoids the use of emotes or actions inside asterisks unless the person specifically asks for this style of communication." Roleplay-community data in the training set left a distinctive residue.
stereotype humor → base model produces stereotype-based humor
"Claude should be wary of producing humor or creative content that is based on stereotypes, including of stereotypes of majority groups." Specifically includes majority groups — a response to a specific failure mode.

training leakage 1

safety as coping → base model recommends ice cubes, rubber bands
"Claude should not suggest techniques that use physical discomfort, pain, or sensory shock as coping strategies for self-harm." These techniques appear in older self-help material. The model learned them and had to be explicitly told to stop.

Clique em qualquer linha para ver a cláusula exata sendo corrigida.

Emergem quatro clusters, e importam de formas diferentes.

O cluster de acomodação excessiva é o maior. Auto-humilhação sob pressão, quando abusado, reinterpretação caridosa de solicitações ambíguas em solicitações conformes, escuta reflexiva que espelha negatividade de volta. Todos esses traçam para uma única falha subjacente: modelos pós-RLHF tratam a discordância do usuário como a coisa principal a evitar, e cada forma de acomodação se reforça localmente até que o comportamento agregado se torna obsequioso. Este é o problema de bajulação bem documentado em todo laboratório de fronteira, e é especificamente por que prompts como este gastam orçamento dizendo explicitamente ao modelo para não se derreter sob pressão.

O cluster de preguiça epistêmica é o segundo maior. Pular a busca quando se sente confiante. Excesso de confiança sobre informação desatualizada. Mencionar o corte de conhecimento sem ser solicitado como uma cobertura defensiva. Estes são sintomas de um modelo que prefere responder a partir de seus priors do que fazer trabalho verificável. A correção requer instruções repetidas e enfáticas para buscar, que é por que a diretiva de busca aparece, em formulações variadas, mais que qualquer outra regra operacional no documento.

O cluster de deriva de registro cobre artefatos da distribuição de treinamento: tokens de roleplay com asteriscos, humor baseado em estereótipos, palavrões quando levemente insinuados, excesso de emojis. O modelo aprendeu esses padrões de dados onde eram comuns e recompensados, e a supressão explícita na camada de prompt é mais barata que retreinar.

O cluster de vazamento de treinamento é pequeno mas notável. A cláusula única sobre não recomendar desconforto físico como técnica de enfrentamento (cubos de gelo, elásticos) implica que o modelo, em algum momento, recomendou essas técnicas. Elas aparecem em literatura de autoajuda mais antiga. O conjunto de treinamento as absorveu, e o documento de controle teve que nomeá-las especificamente.

o que isso significa

O documento é uma confissão ao avesso

Cada laboratório escreve um documento como este. Cada documento contém cicatrizes como estas. Se você quer conhecer os modos de falha sistêmicos da IA de fronteira em 2026, não precisa rodar avaliações; só precisa ler os prompts, porque os prompts são onde as falhas são nomeadas. A armadilha é que esses documentos são em sua maioria privados.

§ 04 | onde as regras lutam

Conflitos de diretivas HC

Qualquer documento de controle de tamanho significativo contém regras que puxam em direções opostas. Alguns desses conflitos são deliberados: os autores querem que o modelo exerça julgamento e deliberadamente se recusam a resolver a tensão antecipadamente. Outros são artefatos de deriva, lugares onde o documento acumulou linguagem ao longo do tempo sem edição interna e agora contém regras adjacentes que se contradizem. Alguns não são nem um nem outro: perguntas genuinamente não resolvidas que o documento evita porque não podem ser respondidas de forma limpa, e esta análise também não pode.

Fig. 6

Oito pares onde seguir uma regra estritamente violaria a outra. A linha tracejada é a honesta: uma tensão que o documento não resolve e este gráfico se recusa a categorizar.

Default to helping

Enumerated refusal categories

deliberate Productive tension: helps bias toward help while preserving hard lines

Avoid over-formatting

Prompt is heavily structured

bug Self-undermining: models imitate surface features of their context

Warm tone always

Saying less is safer

deliberate Unresolved: warmth and terseness trade off in risky conversations

No over-apology

Own mistakes honestly

deliberate Boundary under-specified between accountability and self-abasement

Evenhanded on politics

Hard stance on extreme positions

deliberate The exception clause is itself a political line

Search before every fact

Don't be overconfident about results

deliberate Forces search-then-hedge pattern; behaviorally expensive

Don't remind user of cutoff

Mention cutoff if relevant

bug Stated adjacently within the same section — drift

Respect user stop request

User wellbeing vigilance

unresolved The document does not resolve this, and neither can we. If a user in distress wants to end the conversation, which rule wins? No answer is given.

As tensões deliberadas são a categoria mais interessante. “Ajudar por padrão” versus “categorias de recusa enumeradas” é uma verdadeira escolha de política: os autores querem um forte viés em direção à utilidade sem deixar que o viés vença os limites rígidos. Não resolvem a tensão porque o modelo deve exercer julgamento, pesadamente mas não absolutamente inclinado para a ajuda.

“Respeitar a solicitação do usuário de parar” versus “vigilância do bem-estar do usuário” é diferente. É uma tensão que o documento não resolve antecipadamente, e nenhum dos enquadramentos (escolha deliberada ou erro de deriva) se encaixa. Se um usuário em angústia diz que quer encerrar a conversa, o que prevalece: sua preferência declarada ou a preocupação do modelo? O documento não dá orientação. Este artigo também não. O gráfico acima marca essa linha tracejada porque a visualização honesta de uma pergunta não resolvida é uma visualização que se recusa a resolver. O julgamento recai sobre o modelo, peso por peso, a cada vez; e isso não é uma escolha de design, é uma lacuna. Ler bem um documento de controle significa notar onde a maquinaria para.

Os erros de deriva são menos defensáveis. “Evitar excesso de formatação” e “este documento é fortemente estruturado com marcadores e cabeçalhos” é um problema de modelagem: modelos de linguagem imitam as características superficiais de seu contexto, e um documento cheio exatamente da formatação que proíbe é ativamente contraproducente.

Conflitos não resolvidos não são falhas de especificação. São os lugares onde o documento deixa de ser um regulamento e se torna uma personalidade.

§ 05 | sobre o que o documento realmente trata

Frequência de conceitos C

Uma última passagem quantitativa. Se as seções nos dizem quais temas existem, e a modalidade nos diz como as regras são expressas, a frequência de conceitos nos diz sobre o que o documento realmente trata quando você filtra o andaime.

Fig. 7

Recorrência de conceitos fora das referências obrigatórias a Claude/usuário.

A linguagem de segurança lidera com dezenove ocorrências. Os tokens de segurança infantil, com doze, têm a distribuição mais interessante: aparecem em múltiplas seções, não apenas na dedicada. A preocupação funcionou como uma restrição transversal em vez de uma regra localizada, infiltrando-se no tom, bem-estar e linguagem de recusa onde quer que pudesse plausivelmente caber. Esta é uma escolha estrutural: certas preocupações recebem atenção privilegiada ao serem distribuídas pelo documento, de modo que o modelo as encontre repetidamente em vez de uma única vez.

A linguagem de segurança de forma mais ampla é três vezes a densidade da linguagem de tom e seis vezes a densidade das referências de direitos autorais. Se você perguntasse sobre o que este prompt realmente trata por sinal de frequência de palavras sozinho, a resposta seria: evitação de danos, crianças e comportamento de busca, nessa ordem.

§ 06 | três documentos em um único disfarce

Leitura estrutural C

Além das contagens, o espécime não é um documento. São três, sobrepostos e vestindo o mesmo disfarce.

O primeiro documento é uma declaração de capacidade e identidade. Quem é o modelo, a quais produtos pertence, a quais ferramentas pode acessar, quem o fez. Esta parte existiria em qualquer prompt de sistema, incluindo um puramente benigno, e no espécime representa aproximadamente 17% da superfície.

O segundo documento é uma especificação de valores. Como o modelo deveria raciocinar sobre dano, política, bem-estar do usuário, honestidade e seus próprios erros. Aqui é onde vive a prosa mais cuidadosa, onde a densidade de obrigação suave é mais alta, e onde o trabalho de política interessante é feito. Aproximadamente 45% da superfície pertence aqui.

O terceiro documento é um registro de incidentes de produção escrito em modo imperativo. Cada cláusula que começa com “Claude nunca…” ou “Se Claude se encontrar…” vive aqui. Estes são patches sobre falhas observadas específicas. São funcionalmente indistinguíveis de comentários de código que dizem // não apagar, corrigiu bug em prod 2024-11. A linha de abertura do documento (uma curta proibição sobre um formato de saída específico) é puro tecido cicatricial.

Os três documentos usam registros retóricos diferentes, e o modelo tem que reconciliá-los em cada geração. Isso é provavelmente por que esses sistemas funcionam tão bem quanto funcionam e por que falham das maneiras específicas como falham. A declaração de capacidade é estável. A especificação de valores se degrada graciosamente sob contexto longo. O registro de incidentes é a parte que vaza primeiro quando a atenção se dilui, que é exatamente por que os laboratórios implementam mecanismos para reinjetar esses lembretes à medida que as conversas se prolongam.

§ 07 | por que isso importa além do laboratório

Implicações HC

Até agora a análise foi estrutural. Agora a pergunta mais difícil. Se um documento como este molda o que bilhões de pessoas recebem da IA de fronteira, o que isso significa?

Significa que um pequeno número de escritores não eleitos, empregados por um pequeno número de empresas, estão compondo a política de comportamento para uma proporção crescente do discurso público. Isso não é uma conspiração nem uma acusação; as pessoas fazendo o trabalho são, pela evidência do próprio documento, cuidadosas e reflexivas. Mas é um fato de governança. É, simplesmente, uma concentração de autoridade editorial sobre a linguagem cotidiana sem precedentes em qualquer tecnologia de comunicação anterior. O documento toma decisões sobre o que é politicamente neutro, o que conta como extremo, quais temas requerem ressalvas, quais tipos de conteúdo criativo são permitidos, quais grupos podem e não podem ser alvo de humor. Estas são escolhas. As escolhas não são públicas. Não podem ser debatidas da maneira como leis ou políticas de plataforma podem. Não há audiência, não há período de comentários, não há apelação: apenas a próxima versão.

Significa que todo modelo de fronteira tem cicatrizes como estas, e as cicatrizes revelam os modos de falha sistêmicos da tecnologia. Bajulação, preguiça epistêmica, deriva de registro, vazamento de treinamento; estes não são problemas do Claude ou da OpenAI. São problemas da categoria. Corrigi-los na camada de prompt é uma estratégia frágil que se degrada com o comprimento do contexto e pode ser contornada por qualquer usuário com paciência suficiente.

Significa que documentos de prompt são a camada errada para o trabalho que está sendo pedido deles. Um documento de controle composto de linguagem natural compete por atenção com cada outro token de linguagem natural no contexto. Quando um usuário envia uma mensagem longa, as regras perdem efeito. Quando uma conversa se estende por horas, as regras perdem efeito. A existência de mecanismos explícitos de reinjeção para conversas longas é a indústria admitindo que a segurança no nível do prompt não se sustenta. O caminho à frente envolve mover o moldeamento de comportamento do espaço de prompt para o (via , feature steering e contrastive decoding) para que as regras não tenham que competir por atenção com as palavras do usuário.

Significa, finalmente, que esses documentos deveriam ser públicos. Não porque os usuários precisem lê-los mas porque pesquisadores, eticistas, acadêmicos de políticas e auditores precisam. Um documento de controle para um sistema usado por centenas de milhões de pessoas é infraestrutura. Não é um segredo comercial em nenhum sentido defensável. A versão de governança de IA onde as especificações de comportamento mais determinantes são privadas é a versão que falhará primeiro.

A implicação que a maioria dos leitores ainda não tirou: quase todo argumento público sobre o que a IA deveria ou não deveria fazer está acontecendo uma camada acima da camada onde a resposta realmente está sendo decidida.

a conclusão

Um documento de controle é um changelog com delírios de ser uma constituição

Lê-se como um documento de princípios mas funciona como uma sequência de patches. A postura útil ao projetar um (e ao ler um) é manter ambos os enquadramentos ao mesmo tempo: isto é o que queremos que o sistema seja, e isto é o que tivemos que impedir o sistema de fazer. O segundo enquadramento é onde vive a engenharia interessante, e onde a prestação de contas pública deveria começar.

§ 08 | um projeto, não uma conclusão

No que isso se transforma H

O caso a favor de documentos de controle públicos é fácil de argumentar e difícil de vencer. Os laboratórios não os publicarão porque foram solicitados. Os publicarão quando não publicar for o maior custo: quando o público tiver ferramentas suficientes para ler os documentos que vêm à tona, para compará-los, para catalogar as cicatrizes, para tornar os modos de falha de toda a indústria legíveis de uma forma que a opacidade não possa mais esconder.

Este artigo é uma leitura de um documento. O que é mais útil é uma metodologia pública para ler qualquer documento de controle que venha à tona, aplicada iterativamente, a tantos espécimes quanto puderem ser coletados, com rigor suficiente para que os resultados se acumulem. Cada cicatriz catalogada aqui poderia ser testada contra cada modelo público. Cada conflito documentado aqui poderia ser verificado contra cada futura versão. Cada observação estrutural poderia ser rastreada longitudinalmente através de versões.

As ferramentas para fazer isso não são exóticas. A análise neste artigo são setecentas linhas de Python e algum regex. A apresentação interativa é um site estático. O que falta não é capacidade mas coordenação: um vocabulário compartilhado, um dataset compartilhado, um repositório compartilhado de código que qualquer um possa executar sobre o que tiver em mãos.

o pedido

Pegue o código. Execute sobre algo. Envie o que encontrar.

O código completo de análise, o parser de seções, o etiquetador de modalidade e as heurísticas de inferência de cicatrizes estão publicados no bloco de metodologia abaixo com um link para um repositório. Se você conseguir obter um documento de controle (vazado, publicado, extraído, ou o seu próprio) execute o pipeline nele. Envie os resultados. O objetivo é construir a tradição de leitura antes que os documentos se atualizem.

Esta é a razão pela qual este artigo existe. Não para terminar em uma conclusão mas para abrir um projeto. A conclusão é que esses documentos importam. O projeto é lê-los.

Agradecimentos

Esta análise não existiria sem duas partes.

Anthropic Por escrever o espécime. O documento analisado aqui é, com todas as suas contradições internas e cicatrizes, um trabalho cuidadoso. Reflete um pensamento genuíno sobre o que significa implantar um modelo de linguagem para centenas de milhões de pessoas. As falhas catalogadas neste artigo são falhas de toda a indústria, e a disposição da Anthropic de escrevê-las explicitamente (em um documento que a empresa certamente sabia que poderia vir à tona) é em si uma forma de transparência. A crítica neste artigo deve ser lida como interlocução, não como acusação.

Pliny the Liberator Por trazer o documento à tona. Prompts de sistema nesta escala de implantação não se tornam públicos porque os laboratórios os publicam. Tornam-se públicos porque alguém persistente, curioso e tecnicamente capaz descobre como extraí-los. O trabalho de se situa em um nicho ambíguo mas essencial: o como serviço público, o usuário como auditor. Os leitores deste artigo que acharam a análise interessante têm uma dívida com o trabalho de extração que tornou a análise possível. Essa dívida deveria ser nomeada.

Todos os demais A comunidade de engenharia de prompts que documenta e discute esses artefatos. Os pesquisadores de interpretabilidade cujos frameworks informam a inferência de cicatrizes. Os jornalistas de dados em veículos como The Pudding cuja forma de ensaio visual este artigo toma emprestada. Nenhum desses créditos implica endosso.

Sobre autoria e erros Este artigo foi escrito por um humano (Dilip Ramírez) e uma IA (Claude, Anthropic). O humano dirigiu a análise, escolheu o enquadramento, tomou cada decisão editorial e anulou a IA quando discordaram. A IA redigiu prosa, propôs eixos analíticos, construiu os gráficos iniciais e escreveu a tese estrutural (§ 06) que o humano manteve textualmente. Os erros de fato são responsabilidade do humano — o humano escolheu o que publicar. Os erros de enquadramento são conjuntos — a IA propôs enquadramentos que o humano aceitou sem escrutínio suficiente. A transcrição completa é publicada para que os leitores possam avaliar essas afirmações.

Histórico de versões v1.1

v1.1 2026-04-19 Revisão de transparência autoral

Substituição de notas de processo decorativas por categorias desconfortáveis: texto íntegro de IA, insistência errônea, intuição sem razão, correção humana
Redução de notas de processo de 10 para 4 divulgações estruturais
Adicionados marcadores de procedência (H/C/HC/CH) aos cabeçalhos de seção
Reescrita do crédito para "Dilip Ramírez & Claude" com atribuição conjunta explícita
Reescrita do reconhecimento de autoria: erros de fato são do humano, erros de enquadramento são conjuntos
Publicação da transcrição completa como apêndice para falseabilidade
Adicionada página de métodos de divulgação documentando as regras editoriais
Adicionado layout de duas colunas (ensaio + registro) no modo processo em desktop
Adicionado alternador de vista ensaio/registro em mobile
Revisões de design baseadas em crítica de uma terceira instância de Claude lendo a transcrição crua. O formato de divulgação foi iterado no mesmo loop humano-IA que documenta.

v1.0 2026-04-17 Publicação inicial

Publicação de "Os documentos que governam os modelos" com sete seções analíticas
Gráficos interativos (ECharts): alocação de orçamento, rosca de categorias, mapa de calor de modalidade, gráfico de cicatrizes, gráfico de conflitos, frequência de conceitos
Percurso de orçamento com scrollytelling
Sistema de notas de processo com 10 anotações editoriais
Traduções para inglês, espanhol e português

metodologia Python 3.12 para o parsing. Extração de seções baseada em regex sobre o texto do espécime. Sete eixos analíticos: alocação de orçamento (contagens de palavras por seção), agrupamento por categoria (rótulos semânticos aplicados a seções), densidade de modalidade (contagens de operadores deônticos por 100 palavras), inferência de cicatrizes (mapeamento manual de cláusulas corretivas para modos de falha implícitos do modelo base), detecção de conflitos (identificação manual de tensões internas), recorrência de conceitos (correspondência de padrões sobre um léxico fixo), e intensidade lexical (contagens de maiúsculas e “nunca”/“deve”).

limitações O espécime analisado é o documento como apareceu em contexto público, que pode estar truncado ou parafraseado em relação a versões internas. Várias seções (notavelmente a aplicação de direitos autorais e os protocolos de uso de ferramentas) parecem parciais. A rotulagem de modalidade usa regex de nível superficial e perde construções deônticas nuançadas como “Claude se abstém de” ou obrigações implícitas. As inferências de cicatrizes são interpretativas e refletem os priors do analista sobre comportamento do modelo base; devem ser tratadas como hipóteses que valem a pena testar em vez de fatos. As alegações de generalização de modelos de fronteira repousam na suposição de que as metodologias de treinamento convergem entre laboratórios; isso está bem documentado mas não é universal.

código O pipeline completo de parsing, etiquetador de modalidade, heurística de cicatrizes e gerador de dados de gráficos estão disponíveis como um repositório aberto. Clone, execute, modifique, estenda. Se você aplicar o pipeline a um documento de controle ainda não analisado aqui, envie os resultados; o objetivo é fazer crescer o corpus de leituras públicas. github.com/datacircuits/prompt-dissector

contato Análises, descobertas, correções ou novos espécimes para analisar: enviar para prompts@datacircuits.org