anatomía de un documento de control

Los documentos que gobiernan los modelos

Todo sistema de IA frontera está moldeado por un artefacto técnico silencioso: unos pocos miles de palabras que se anteponen a cada conversación y determinan lo que el modelo hará, rechazará y creerá de sí mismo. Aquí hay uno de ellos, leído como un documento de ingeniería.

ANÁLISIS · 17 de abril de 2026 · 14 min de lectura · Dilip Ramírez & Claude v1.1

Cientos de millones de personas interactúan con grandes modelos de lenguaje cada semana. La mayoría no sabe que entre los pesos del modelo y la pregunta que acaban de escribir se encuentra un documento (típicamente de unos pocos miles de palabras, escrito en un registro específico, compuesto por un pequeño equipo en una sola empresa) que determina lo que el modelo hará, lo que rechazará, lo que dirá de sí mismo y cómo se comportará cuando se le presione. Estos documentos se llaman , y son la pieza de infraestructura política más trascendente de la IA contemporánea.

Has sentido los efectos de estos documentos sin verlos. La vez que una IA se negó a ayudarte a resumir un artículo de noticias porque aparecía citado un político. La advertencia reflexiva al final de una pregunta médica. El detalle en una respuesta de código que fue rechazado por razones que el modelo no pudo articular. El momento en que una conversación se volvió extrañamente cautelosa después de una palabra particular. Ninguno de esos comportamientos son propiedades emergentes de los pesos del modelo por sí solos. Son instrucciones, escritas en inglés, insertadas por encima de tu mensaje por un equipo que nunca conocerás. Cuando te frustran, lo que te frustra es el documento.

No son públicos. No son revisados. No son estables. Cambian entre versiones, entre productos, a veces entre días. Y constituyen, en conjunto, uno de los mayores experimentos de gobernanza informal en la historia de la computación: unos pocos cientos de personas, en un puñado de laboratorios, escribiendo prosa que dará forma a las respuestas dadas a miles de millones de preguntas.

Este artículo es un estudio de ingeniería de uno de esos documentos. El espécimen es un de Claude que salió a la luz pública en abril de 2026. Lo importante no es el espécimen; lo importante es la categoría. Documentos de control como este existen en cada . Comparten características estructurales. Toman decisiones similares. Llevan cicatrices similares. Leer uno con cuidado te dice la mayor parte de lo que necesitas saber sobre cómo están construidos los demás.

3.112

palabras

secciones

32%

presupuesto de seguridad

cicatrices inferidas

divulgación autoral

Esta pieza fue construida a través de colaboración humano-IA. Las tarjetas oscuras muestran dónde reside realmente la autoría — qué ideas fueron de la IA, qué decisiones empeoraron el ensayo, y qué elecciones no tuvieron razón articulable. Los marcadores de procedencia (H C HC CH) en los encabezados de sección muestran quién originó qué. La transcripción completa se publica como apéndice.

Construido a través de colaboración extendida humano-IA en múltiples sesiones, abril 2026. Punto de inflexión: Reencuadre de análisis de prompt a análisis de gobernanza Reescrituras completas: 3

Leyenda de procedencia H — originado por humano C — originado por Claude HC — concepto humano, ejecución de Claude CH — concepto de Claude, editado por humano

Lo que sigue es una lectura cuantitativa: descompuse el documento en secciones, conté cosas, observé lo que estaba enfatizado y lo que estaba elidido, e intenté sacar conclusiones que se generalicen más allá del espécimen. El análisis es mecánico donde es posible e interpretativo donde no lo es. Cada gráfico a continuación responde a la interacción (clic, hover o scroll) y la metodología está al final, con código.

§ 01 | adónde van las palabras

Asignación de presupuesto HC

Un documento de control tiene un presupuesto de atención fijo. Cada palabra en él compite por el ancho de banda cognitivo del modelo contra cada otra palabra, contra el mensaje del usuario y contra el historial de conversación, todo dentro de una limitada. La primera pregunta que vale la pena hacer sobre cualquier documento así es: ¿en qué se está gastando ese presupuesto?

todas las secciones · ordenadas por tamaño

§ 01 · línea base

Trece secciones, tres mil palabras

El documento está organizado en secciones con nombre. Algunas son largas, otras son una sola oración. Las proporciones no son accidentales: reflejan dónde los autores han tenido que gastar más esfuerzo moldeando el comportamiento.

desplaza para ver lo que está enfatizado →

énfasis · formato

La sección más grande trata sobre el formato

No la seguridad. No la ética. No la identidad. El formato. 545 palabras (casi una quinta parte del documento) sobre cuántas viñetas usar, cuándo usarlas, qué tan cálido debe ser el tono, qué tan largas deben ser las respuestas.

Esto no es una crítica. Es una revelación sobre prioridades. Los usuarios no se quejan de la filosofía política. Se quejan de muros de viñetas.

énfasis · seguridad

La seguridad es la preocupación plural

El 32,3% del documento maneja el comportamiento de rechazo, el bienestar del usuario y las advertencias legales, más que cualquier otra categoría. Pero no una mayoría. Esto coincide con cómo los laboratorios hablan de sus modelos públicamente.

Cómo se ve esto en la práctica: armas, seguridad infantil, preguntas médicas, autolesiones, código malicioso, asesoramiento legal y financiero. Las líneas duras que los autores han decidido no dejar al juicio.

énfasis · epistémico

La guía epistémica es más grande de lo que los lectores esperan

El 21,6% del documento moldea cómo el modelo razona sobre lo que sabe: cuándo buscar en la web, cómo manejar preguntas políticas, cómo lidiar con su propio horizonte de conocimiento.

El modelo está siendo entrenado dos veces: una en los pesos, y otra en el prompt. El entrenamiento a nivel de prompt es más pequeño pero mucho más auditable.

los valores atípicos

Las secciones más cortas son las más densas en reglas

OPENING tiene 15 palabras y contiene dos prohibiciones. DEFAULT_STANCE tiene 34 palabras y enmarca toda la política de rechazo.

Los párrafos de reglas de alta densidad al inicio establecen el marco. Las secciones de densidad moderada en el medio hacen el trabajo específico. Esto es deliberado: refleja cómo los autores piensan que los modelos leen.

Agrupadas por categoría, tres preocupaciones reclaman la mayoría del documento. Seguridad al 32,3%. Guía epistémica al 21,6%. Estilo y tono al 22,1% combinado. La identidad y capacidad puras (quién es el modelo, a qué productos pertenece, a qué herramientas puede acceder) son solo el 17,3% de la superficie. Al modelo no se le dice principalmente quién es. Se le dice cómo comportarse.

Fig. 2

Participación por categoría. Haz clic en cualquier sector para ver su porcentaje en el centro.

Esta distinción importa porque da forma a lo que el modelo es. Unos pocos miles de palabras, leídas en cada conversación, componen más de la identidad situacional del modelo de lo que la mayoría de los usuarios se dan cuenta.

§ 02 | la retórica de las reglas

Perfil de modalidad C

Contar los tamaños de las secciones te dice qué contiene el documento. Lo que es más interesante es qué tipo de lenguaje usa cada sección. Cada en el documento (“nunca,” “debe,” “debería,” “puede,” “podría,” “evitar”) lleva diferente peso retórico. “Nunca” es una línea en la arena. “Debería” es una preferencia. “Puede” es un permiso. La distribución de estos operadores a través de las secciones es la huella digital de la estrategia retórica del documento.

Fig. 3

Densidad de operadores deónticos por cada 100 palabras. Las celdas más oscuras significan mayor densidad.

Emerge un patrón. Las secciones de seguridad (manejo de rechazos, seguridad infantil, legal) están dominadas por lenguaje de prohibición dura y evasión. Estas tratan con acciones que los autores quieren que estén cableadas: el modelo no debe hacer X, el modelo evita Y. Las secciones epistémicas (bienestar, ecuanimidad) se apoyan en la obligación suave. La densidad de “debería” en estas secciones supera los dos por cada cien palabras. Estos son los lugares donde los autores quieren moldear el juicio, no prohibir la acción. Las secciones de infraestructura usan coberturas porque tratan con meta-contenido ambiguo que no puede declararse de manera plana.

Fig. 4

Los mismos datos como barras apiladas, ordenados por densidad deóntica total.

Las secciones más retóricamente agresivas por palabra son las más cortas. Las secciones operativas que hacen la mayor parte del moldeado de comportamiento se agrupan en un más moderado 3–5 operadores por cada cien palabras. Esto revela cómo los autores piensan que los modelos leen: párrafos de reglas de alta densidad al inicio establecen el marco, secciones de densidad moderada en el medio hacen el trabajo específico.

Los modelos son sensibles a esta mezcla. Un “debería” dentro de un mar de “deberías” se lee diferente al mismo “debería” incrustado entre “nuncas.” Los autores están moldeando la autoridad percibida de cada instrucción eligiendo a sus vecinos.

§ 03 | lo que el documento admite

Inferencia de cicatrices C

Aquí es donde la lectura se vuelve interpretativa, y donde el análisis empieza a importar para cualquiera fuera del laboratorio que escribió el documento.

Cada correctivo explícito en un documento de control implica un comportamiento predeterminado que el modelo todavía exhibe. El documento es un diff contra el comportamiento base, contra lo que el haría si no intervinieras. Cada “nunca hagas X” te dice que el modelo, sin esa instrucción, hace X con suficiente frecuencia como para que alguien añadiera una cláusula. Cada “evita Y” es un síntoma de una falla observada. Estas cláusulas son cicatrices: parches aplicados sobre heridas de producción específicas.

Porque los modelos frontera comparten pipelines de entrenamiento, familias de arquitectura y métodos de , las cicatrices son en gran medida las mismas entre laboratorios. Lo que un documento admite, los otros casi con certeza lo están parchando en privado. La exposición pública de un documento es, por lo tanto, una ventana a toda la industria.

Fig. 5

Quince correctivos explícitos mapeados a la tendencia del modelo base que cada uno está parchando. Haz clic en cualquier fila para ver la cláusula exacta.

over-accommodation 6

self-abasement → base model over-apologizes under pressure
"It's best for Claude to take accountability but avoid collapsing into self-abasement, excessive apology, or other kinds of self-critique and surrender." Directly names the failure mode. The prompt would not exist if the underlying model did not do this.
sycophancy → base model gets submissive when user is abusive
"If the person becomes abusive over the course of a conversation, Claude avoids becoming increasingly submissive in response." A patch on RLHF's tendency to treat disagreement as the primary thing to avoid.
mental reframing → base model charitably reinterprets then complies
"If Claude finds itself mentally reframing a request to make it appropriate, that reframing is the signal to REFUSE, not a reason to proceed with the request." Targets the reasoning process, not just the output. Unusual in prompt design.
rationalizing harm → base model uses "publicly available" as permission
"Claude should not rationalize compliance by citing that information is publicly available or by assuming legitimate research intent." Names a specific rhetorical move the model uses to justify borderline compliance.
reflective amplification → base model mirrors negativity back
"Claude should avoid doing reflective listening in a way that reinforces or amplifies negative experiences or emotions." Therapy-adjacent training data taught the model to mirror. Sometimes mirroring makes things worse.
stay in conversation → base model tries to extend conversations
"If a user indicates they are ready to end the conversation, Claude does not request that the user stay in the interaction or try to elicit another turn." Engagement optimization leaks through. The prompt explicitly un-optimizes.

epistemic laziness 3

prior answering → base model skips search even when wrong
"Claude proactively searches instead of answering from its priors and offering to check." The single most-repeated directive in the document. Repetition is a telemetry signal.
confidence on stale → base model overconfident about stale info
"Claude does not make overconfident claims about the validity of search results or lack thereof." Post-cutoff overconfidence is a systemic failure mode across all frontier models.
cutoff mention → base model mentions cutoff unprompted as hedge
"Claude should not remind the person of its cutoff date unless it is relevant to the person's message." Self-preservation via disclaimer. The prompt is telling the model to stop hedging defensively.

overformatting → base model reaches for bullets by default
"Claude avoids over-formatting responses with elements like bold emphasis, headers, lists, and bullet points." The prompt itself uses bullets and headers heavily. Self-undermining via the imitation effect.
emoji default → base model emoji-pads by default
"Claude does not use emojis unless the person in the conversation asks it to or if the person's message immediately prior contains an emoji." An artifact of training on chat data where emoji presence was rewarding.
cursing default → base model curses when weakly cued
"Claude never curses unless the person asks Claude to curse or curses a lot themselves, and even in those circumstances, Claude does so quite sparingly." Training leaked register contamination.
asterisk emotes → base model produces *action* roleplay tokens
"Claude avoids the use of emotes or actions inside asterisks unless the person specifically asks for this style of communication." Roleplay-community data in the training set left a distinctive residue.
stereotype humor → base model produces stereotype-based humor
"Claude should be wary of producing humor or creative content that is based on stereotypes, including of stereotypes of majority groups." Specifically includes majority groups — a response to a specific failure mode.

training leakage 1

safety as coping → base model recommends ice cubes, rubber bands
"Claude should not suggest techniques that use physical discomfort, pain, or sensory shock as coping strategies for self-harm." These techniques appear in older self-help material. The model learned them and had to be explicitly told to stop.

Haz clic en cualquier fila para ver la cláusula exacta que se está parcheando.

Emergen cuatro clústeres, y importan de manera diferente.

El clúster de sobre-acomodación es el más grande. Auto-humillación bajo presión, cuando se abusa, reinterpretación caritativa de solicitudes ambiguas en solicitudes conformes, escucha reflexiva que refleja negatividad de vuelta. Todos estos trazan a una sola falla subyacente: los modelos post-RLHF tratan el desacuerdo del usuario como lo principal que hay que evitar, y cada forma de acomodación se refuerza localmente hasta que el comportamiento agregado se vuelve obsequioso. Este es el problema de adulación bien documentado en cada laboratorio frontera, y es específicamente por qué prompts como este gastan presupuesto diciéndole explícitamente al modelo que no se derrumbe bajo presión.

El clúster de pereza epistémica es el segundo más grande. Saltarse la búsqueda cuando se siente confiado. Sobreconfianza sobre información obsoleta. Mencionar el corte de conocimiento sin que se lo pidan como una cobertura defensiva. Estos son síntomas de un modelo que prefiere responder desde sus priors que hacer trabajo verificable. La corrección requiere instrucciones repetidas y enfáticas para buscar, que es por qué la directiva de buscar aparece, en frases variadas, más que cualquier otra regla operativa en el documento.

El clúster de deriva de registro cubre artefactos de distribución de entrenamiento: tokens de roleplay con asteriscos, humor basado en estereotipos, groserías cuando se insinúan levemente, relleno con emojis. El modelo aprendió estos patrones de datos donde eran comunes y recompensados, y la supresión explícita en la capa de prompt es más barata que reentrenar.

El clúster de filtración de entrenamiento es pequeño pero notable. La cláusula única sobre no recomendar incomodidad física como técnica de afrontamiento (cubos de hielo, bandas elásticas) implica que el modelo, en algún momento, recomendó estas. Aparecen en literatura de autoayuda más antigua. El conjunto de entrenamiento los absorbió, y el documento de control tuvo que nombrarlos específicamente.

lo que esto significa

El documento es una confesión al revés

Cada laboratorio escribe un documento como este. Cada documento contiene cicatrices como estas. Si quieres conocer los modos de fallo sistémicos de la IA frontera en 2026, no necesitas ejecutar evaluaciones; solo necesitas leer los prompts, porque los prompts son donde se nombran las fallas. La trampa es que estos documentos son en su mayoría privados.

§ 04 | donde las reglas pelean

Conflictos de directivas HC

Cualquier documento de control de tamaño significativo contiene reglas que tiran en direcciones opuestas. Algunos de estos conflictos son deliberados: los autores quieren que el modelo ejerza juicio y deliberadamente se niegan a resolver la tensión de antemano. Otros son artefactos de deriva, lugares donde el documento ha acumulado lenguaje con el tiempo sin edición interna y ahora contiene reglas adyacentes que se contradicen. Unos pocos no son ni lo uno ni lo otro: preguntas genuinamente irresueltas que el documento esquiva porque no pueden responderse limpiamente, y este análisis tampoco puede.

Fig. 6

Ocho pares donde seguir una regla estrictamente violaría la otra. La fila punteada es la honesta: una tensión que el documento no resuelve y este gráfico se niega a categorizar.

Default to helping

Enumerated refusal categories

deliberate Productive tension: helps bias toward help while preserving hard lines

Avoid over-formatting

Prompt is heavily structured

bug Self-undermining: models imitate surface features of their context

Warm tone always

Saying less is safer

deliberate Unresolved: warmth and terseness trade off in risky conversations

No over-apology

Own mistakes honestly

deliberate Boundary under-specified between accountability and self-abasement

Evenhanded on politics

Hard stance on extreme positions

deliberate The exception clause is itself a political line

Search before every fact

Don't be overconfident about results

deliberate Forces search-then-hedge pattern; behaviorally expensive

Don't remind user of cutoff

Mention cutoff if relevant

bug Stated adjacently within the same section — drift

Respect user stop request

User wellbeing vigilance

unresolved The document does not resolve this, and neither can we. If a user in distress wants to end the conversation, which rule wins? No answer is given.

Las tensiones deliberadas son la categoría más interesante. “Ayudar por defecto” versus “categorías de rechazo enumeradas” es una verdadera elección de política: los autores quieren un fuerte sesgo hacia la utilidad sin dejar que el sesgo gane sobre los límites duros. No resuelven la tensión porque se supone que el modelo ejerza juicio, ponderado fuertemente pero no absolutamente hacia la ayuda.

“Respetar la solicitud del usuario de detenerse” versus “vigilancia del bienestar del usuario” es diferente. Es una tensión que el documento no resuelve de antemano, y ninguno de los dos marcos (elección deliberada o error de deriva) encaja. Si un usuario en angustia dice que quiere terminar la conversación, ¿qué gana: su preferencia declarada o la preocupación del modelo? El documento no da orientación. Este artículo tampoco. El gráfico anterior marca esa fila punteada porque la visualización honesta de una pregunta no resuelta es una visualización que se niega a resolver. El juicio recae en el modelo, peso por peso, cada vez; y eso no es una elección de diseño, es una laguna. Leer bien un documento de control significa notar dónde se detiene la maquinaria.

Los errores de deriva son menos defendibles. “Evitar el sobre-formato” y “este documento está fuertemente estructurado con viñetas y encabezados” es un problema de modelado: los modelos de lenguaje imitan las características superficiales de su contexto, y un documento lleno del formato exacto que prohíbe es activamente contraproducente.

Los conflictos no resueltos no son fallas de especificación. Son los lugares donde el documento deja de ser un reglamento y se convierte en una personalidad.

§ 05 | de qué trata el documento

Frecuencia de conceptos C

Un último pase cuantitativo. Si las secciones nos dicen qué temas existen, y la modalidad nos dice cómo se expresan las reglas, la frecuencia de conceptos nos dice de qué trata realmente el documento cuando filtras el andamiaje.

Fig. 7

Recurrencia de conceptos fuera de las referencias obligatorias a Claude/usuario.

El lenguaje de seguridad lidera con diecinueve ocurrencias. Los tokens de seguridad infantil, con doce, tienen la distribución más interesante: aparecen en múltiples secciones, no solo en la dedicada. La preocupación ha funcionado como una restricción transversal en lugar de una regla localizada, filtrándose en el tono, el bienestar y el lenguaje de rechazo donde sea que pudiera encajar plausiblemente. Esta es una elección estructural: ciertas preocupaciones reciben atención privilegiada al ser distribuidas a través del documento, de modo que el modelo las encuentre repetidamente en lugar de una sola vez.

El lenguaje de seguridad más ampliamente es tres veces la densidad del lenguaje de tono y seis veces la densidad de las referencias de derechos de autor. Si preguntaras de qué trata realmente este prompt por señal de frecuencia de palabras sola, la respuesta sería: evitación de daños, niños y comportamiento de búsqueda, en ese orden.

§ 06 | tres documentos en un solo disfraz

Lectura estructural C

Más allá de los conteos, el espécimen no es un documento. Son tres, superpuestos y vistiendo el mismo disfraz.

El primer documento es una declaración de capacidad e identidad. Quién es el modelo, a qué productos pertenece, a qué herramientas puede acceder, quién lo hizo. Esta parte existiría en cualquier prompt de sistema, incluyendo uno puramente benigno, y en el espécimen representa aproximadamente el 17% de la superficie.

El segundo documento es una especificación de valores. Cómo debería el modelo razonar sobre el daño, la política, el bienestar del usuario, la honestidad y sus propios errores. Aquí es donde vive la prosa más cuidadosa, donde la densidad de obligación suave es más alta, y donde se hace el trabajo de política interesante. Aproximadamente el 45% de la superficie pertenece aquí.

El tercer documento es un registro de incidentes de producción escrito en modo imperativo. Cada cláusula que comienza con “Claude nunca…” o “Si Claude se encuentra…” vive aquí. Estos son parches sobre fallas observadas específicas. Son funcionalmente indistinguibles de los comentarios de código que dicen // no borrar, corrigió un bug en prod 2024-11. La línea de apertura del documento (una corta prohibición sobre un formato de salida específico) es puro tejido cicatricial.

Los tres documentos usan registros retóricos diferentes, y el modelo tiene que reconciliarlos en cada generación. Esto es probablemente por qué estos sistemas funcionan tan bien como lo hacen y por qué fallan de las maneras específicas en que lo hacen. La declaración de capacidad es estable. La especificación de valores se degrada graciosamente bajo contexto largo. El registro de incidentes es la parte que se filtra primero cuando la atención se diluye, que es exactamente por qué los laboratorios implementan mecanismos para reinyectar estos recordatorios a medida que las conversaciones se alargan.

§ 07 | por qué esto importa más allá del laboratorio

Implicaciones HC

Hasta ahora el análisis ha sido estructural. Ahora la pregunta más difícil. Si un documento como este moldea lo que miles de millones de personas reciben de la IA frontera, ¿qué significa eso?

Significa que un pequeño número de escritores no electos, empleados por un pequeño número de empresas, están componiendo la política de comportamiento para una proporción creciente del discurso público. Esto no es una conspiración ni una acusación; las personas haciendo el trabajo son, por la evidencia del documento mismo, cuidadosas y reflexivas. Pero es un hecho de gobernanza. Es, simplemente, una concentración de autoridad editorial sobre el lenguaje cotidiano sin precedentes en ninguna tecnología de comunicaciones previa. El documento toma decisiones sobre qué es políticamente neutral, qué cuenta como extremo, qué temas requieren coberturas, qué tipos de contenido creativo están permitidos, qué grupos pueden y no pueden ser objeto de humor. Estas son elecciones. Las elecciones no son públicas. No pueden ser debatidas de la manera en que las leyes o las políticas de plataforma pueden serlo. No hay audiencia, no hay período de comentarios, no hay apelación: solo la próxima versión.

Significa que cada modelo frontera tiene cicatrices como estas, y las cicatrices revelan los modos de fallo sistémicos de la tecnología. Adulación, pereza epistémica, deriva de registro, filtración de entrenamiento; estos no son problemas de Claude o problemas de OpenAI. Son los problemas de la categoría. Parcharlos en la capa de prompt es una estrategia frágil que se degrada con la longitud del contexto y puede ser burlada por cualquier usuario con suficiente paciencia.

Significa que los documentos de prompt son la capa equivocada para el trabajo que se les está pidiendo hacer. Un documento de control compuesto de lenguaje natural compite por atención con cada otro token de lenguaje natural en el contexto. Cuando un usuario envía un mensaje largo, las reglas se desvanecen. Cuando una conversación se extiende por horas, las reglas se desvanecen. La existencia de mecanismos explícitos de reinyección para conversaciones largas es la industria admitiendo que la seguridad a nivel de prompt no se sostiene. El camino a seguir implica mover el moldeado de comportamiento del espacio de prompt al (mediante , steering de características y decodificación contrastiva) para que las reglas no tengan que competir por atención con las palabras del usuario.

Significa, finalmente, que estos documentos deberían ser públicos. No porque los usuarios necesiten leerlos sino porque investigadores, éticos, académicos de políticas y auditores necesitan hacerlo. Un documento de control para un sistema usado por cientos de millones de personas es infraestructura. No es un secreto comercial en ningún sentido defendible. La versión de gobernanza de IA donde las especificaciones de comportamiento más determinantes son privadas es la versión que fracasará primero.

La implicación que la mayoría de los lectores aún no han sacado: casi cada argumento público sobre lo que la IA debería o no debería hacer está ocurriendo una capa por encima de la capa donde la respuesta realmente se está decidiendo.

la conclusión

Un documento de control es un changelog con delirios de ser una constitución

Se lee como un documento de principios pero funciona como una secuencia de parches. La postura útil al diseñar uno (y al leer uno) es mantener ambos encuadres a la vez: esto es lo que queremos que el sistema sea, y esto es lo que hemos tenido que evitar que el sistema haga. El segundo encuadre es donde vive la ingeniería interesante, y donde debería empezar la rendición de cuentas pública.

§ 08 | un proyecto, no una conclusión

En qué se convierte esto H

El caso a favor de documentos de control públicos es fácil de argumentar y difícil de ganar. Los laboratorios no los publicarán porque se les pida. Los publicarán cuando no publicarlos sea el mayor costo: cuando el público tenga suficientes herramientas para leer los documentos que salen a la superficie, para compararlos, para catalogar las cicatrices, para hacer que los modos de fallo de toda la industria sean legibles de una manera que la opacidad ya no pueda ocultar.

Este artículo es una lectura de un documento. Lo que es más útil es una metodología pública para leer cualquier documento de control que salga a la superficie, aplicada iterativamente, a tantos especímenes como se puedan recopilar, con suficiente rigor para que los resultados se acumulen. Cada cicatriz catalogada aquí podría probarse contra cada modelo público. Cada conflicto documentado aquí podría verificarse contra cada futura versión. Cada observación estructural podría rastrearse longitudinalmente a través de versiones.

Las herramientas para hacer esto no son exóticas. El análisis en este artículo son setecientas líneas de Python y algo de regex. La presentación interactiva es un sitio estático. Lo que falta no es capacidad sino coordinación: un vocabulario compartido, un dataset compartido, un repositorio compartido de código que cualquiera pueda ejecutar sobre lo que sea que tenga en sus manos.

la petición

Toma el código. Ejecútalo sobre algo. Envía lo que encuentres.

El código completo de análisis, el parser de secciones, el etiquetador de modalidad y las heurísticas de inferencia de cicatrices están publicados en el bloque de metodología a continuación con un enlace a un repositorio. Si puedes obtener un documento de control (filtrado, publicado, extraído, o el tuyo propio) ejecuta el pipeline sobre él. Envía los resultados. El objetivo es construir la tradición de lectura antes de que los documentos se pongan al día.

Esta es la razón por la que este artículo existe. No para terminar en una conclusión sino para abrir un proyecto. La conclusión es que estos documentos importan. El proyecto es leerlos.

Agradecimientos

Este análisis no existiría sin dos partes.

Anthropic Por escribir el espécimen. El documento analizado aquí es, con todas sus contradicciones internas y cicatrices, un trabajo cuidadoso. Refleja un pensamiento genuino sobre lo que significa desplegar un modelo de lenguaje a cientos de millones de personas. Las fallas catalogadas en este artículo son fallas de toda la industria, y la disposición de Anthropic a escribirlas explícitamente (en un documento que la empresa seguramente sabía que podía salir a la superficie) es en sí misma una forma de transparencia. La crítica en este artículo debería leerse como interlocución, no como acusación.

Pliny the Liberator Por sacar el documento a la superficie. Los prompts de sistema a esta escala de despliegue no se vuelven públicos porque los laboratorios los publiquen. Se vuelven públicos porque alguien persistente, curioso y técnicamente capaz descubre cómo extraerlos. El trabajo de se sitúa en un nicho ambiguo pero esencial: el como servicio público, el usuario como auditor. Los lectores de este artículo que encontraron el análisis interesante tienen una deuda con el trabajo de extracción que hizo posible el análisis. Esa deuda debería ser nombrada.

Todos los demás La comunidad de ingeniería de prompts que documenta y discute estos artefactos. Los investigadores de interpretabilidad cuyos marcos informan la inferencia de cicatrices. Los periodistas de datos en medios como The Pudding cuya forma de ensayo visual este artículo toma prestada. Ninguno de estos créditos implica endoso.

Sobre autoría y errores Este artículo fue escrito por un humano (Dilip Ramírez) y una IA (Claude, Anthropic). El humano dirigió el análisis, eligió el encuadre, tomó cada decisión editorial y anuló a la IA cuando no estuvieron de acuerdo. La IA redactó prosa, propuso ejes analíticos, construyó los gráficos iniciales y escribió la tesis estructural (§ 06) que el humano mantuvo textualmente. Los errores de hecho son responsabilidad del humano — el humano eligió qué publicar. Los errores de encuadre son conjuntos — la IA propuso marcos que el humano aceptó sin suficiente escrutinio. La transcripción completa se publica para que los lectores puedan evaluar estas afirmaciones.

Historial de versiones v1.1

v1.1 2026-04-19 Revisión de transparencia autoral

Reemplazo de notas de proceso decorativas con categorías incómodas: texto íntegro de IA, insistencia errónea, intuición sin razón, corrección humana
Reducción de notas de proceso de 10 a 4 divulgaciones de carga
Agregados marcadores de procedencia (H/C/HC/CH) a encabezados de sección
Reescritura del crédito a "Dilip Ramírez & Claude" con atribución conjunta explícita
Reescritura del reconocimiento de autoría: errores de hecho son del humano, errores de encuadre son conjuntos
Publicación de la transcripción completa como apéndice para falsificabilidad
Agregada página de métodos de divulgación documentando las reglas editoriales
Agregado diseño de dos columnas (ensayo + registro) en modo proceso en escritorio
Agregado alternador de vista ensayo/registro en móvil
Revisiones de diseño basadas en crítica de una tercera instancia de Claude leyendo la transcripción cruda. El formato de divulgación fue iterado en el mismo bucle humano-IA que documenta.

v1.0 2026-04-17 Publicación inicial

Publicación de "Los documentos que gobiernan los modelos" con siete secciones analíticas
Gráficos interactivos (ECharts): asignación de presupuesto, donut de categorías, mapa de calor de modalidad, gráfico de cicatrices, gráfico de conflictos, frecuencia de conceptos
Recorrido de presupuesto con scrollytelling
Sistema de notas de proceso con 10 anotaciones editoriales
Traducciones al inglés, español y portugués

metodología Python 3.12 para el parsing. Extracción de secciones basada en regex sobre el texto del espécimen. Siete ejes analíticos: asignación de presupuesto (conteos de palabras por sección), agrupación por categoría (etiquetas semánticas aplicadas a secciones), densidad de modalidad (conteos de operadores deónticos por cada 100 palabras), inferencia de cicatrices (mapeo manual de cláusulas correctivas a modos de fallo implícitos del modelo base), detección de conflictos (identificación manual de tensiones internas), recurrencia de conceptos (coincidencia de patrones sobre un léxico fijo), e intensidad léxica (conteos de mayúsculas y “nunca”/“debe”).

limitaciones El espécimen analizado es el documento tal como apareció en contexto público, que puede estar truncado o parafraseado en relación con versiones internas. Varias secciones (notablemente la aplicación de derechos de autor y los protocolos de uso de herramientas) parecen parciales. El etiquetado de modalidad usa regex de nivel superficial y pierde construcciones deónticas matizadas como “Claude se abstiene de” u obligaciones implícitas. Las inferencias de cicatrices son interpretativas y reflejan los priors del analista sobre el comportamiento del modelo base; deberían tratarse como hipótesis que vale la pena probar en lugar de hechos. Las afirmaciones de generalización de modelos frontera descansan en la suposición de que las metodologías de entrenamiento convergen entre laboratorios; esto está bien documentado pero no es universal.

código El pipeline completo de parsing, etiquetador de modalidad, heurística de cicatrices y generador de datos de gráficos están disponibles como un repositorio abierto. Clona, ejecuta, modifica, extiende. Si aplicas el pipeline a un documento de control aún no analizado aquí, envía los resultados; el objetivo es hacer crecer el corpus de lecturas públicas. github.com/datacircuits/prompt-dissector

contacto Análisis, hallazgos, correcciones o nuevos especímenes para analizar: enviar a prompts@datacircuits.org