La escala no es un veredicto: qué miden realmente las escalas de desarrollo infantil

Niño pequeño jugando con bloques de madera en una superficie suave, visto desde arriba en luz cálida dorada, ilustración editorial sobre escalas de evaluación del desarrollo infantil.

Para quién es este artículo: psicólogos clínicos, pediatras, terapeutas y padres que llegaron a consulta con un papel que dice “rezagado” o “en riesgo” y necesitan entender qué significa ese número antes de entrar en pánico.

La primera vez que un padre te mira con un papel en la mano y te dice “el pediatra nos mandó con ustedes porque Mateo no habla”, preparas el espresso, sientas a ambos en el consultorio y preguntas: “¿Qué edad tiene Mateo?”. “Tres años.” “¿Tres años y no produce ninguna palabra? ¿Ni siquiera aproximadas? ¿No dice ‘mamá’, ‘agua’, ‘no’?”. Intercambio de miradas entre ellos. La madre: “Dice ‘ah’ cuando quiere algo. A veces grita. Pero palabras, no. Nada de palabras”.

El pediatra hizo bien en derivar. A los tres años sin lenguaje expresivo hay que descartar trastorno del espectro autista, discapacidad intelectual, hipoacusia, alteraciones específicas del lenguaje y —quizá lo más frecuente en mi consulta— un retraso simple del lenguaje que se va a resolver con estimulación. Pero para eso necesitas datos. Necesitas observación estructurada. Necesitas algo que te permita separar “este niño está un par de meses por debajo de lo esperado pero dentro de rangos normativos” de “este niño tiene un desfase clínicamente significativo que requiere intervención”.

Ahí entran las escalas de desarrollo.

Y aquí es donde el clima del consultorio cambia. Porque cuando los padres escuchan la palabra “escala” —o peor, cuando googlean “Bayley” en el celular mientras tú preparas el kit de prueba— sus cerebros se llenan de imágenes de coeficientes intelectuales, etiquetas permanentes y diagnósticos que parecen sentencias judiciales. Entonces, antes de sacar cualquier material, les dices algo que se ha vuelto casi un ritual: “Lo que vamos a hacer hoy es tomarle una fotografía. No es un pronóstico. No es un veredicto. Es una foto del desarrollo de Mateo hoy, con tres años, en este consultorio, con estos juguetes, con ustedes acá. De esa foto vamos a sacar información para ayudarlo. Nada más”.

Este artículo trata de eso: qué son las escalas de desarrollo, cuáles existen, cómo se eligen, qué miden y —fundamentalmente— qué no miden.

¿Qué es una escala de desarrollo?

Una escala de desarrollo es un instrumento estandarizado que evalúa si un niño ha alcanzado los hitos esperados para su edad en distintos dominios: motor grueso, motor fino, cognitivo, lenguaje (expresivo y comprensivo), desarrollo socioemocional y, en algunos casos, habilidades adaptativas. La palabra clave es estandarizado: significa que la escala se administró a una muestra representativa de niños —la muestra de normación—, que tiene instrucciones precisas de aplicación, que existe un protocolo de puntuación objetivo y que los resultados se interpretan contra un baremo. No es una impresión clínica. No es “a mí me parece que va bien”. Es un dato comparativo.

Pero las escalas no son todas iguales. Hay una distinción fundamental que cualquier profesional que trabaja con niños debe tener clarísima: la diferencia entre una escala de cribado y una escala diagnóstica.

Escalas de cribado

Una escala de cribado (screening) está diseñada para aplicarse rápidamente, a bajo costo, idealmente a toda la población infantil en un momento determinado. Su función no es diagnosticar nada. Su función es identificar qué niños necesitan una evaluación más profunda. Piensa en el Denver II o en el ASQ-3: son la red de pesca de malla ancha. Capturan muchos niños, algunos de los cuales no tienen ningún problema (falsos positivos), y dejan pasar algunos que sí lo tienen (falsos negativos). Eso es esperable: un instrumento de cribado con sensibilidad y especificidad perfectas no existe, y si existiera, probablemente sería tan largo y costoso que dejaría de ser de cribado.

El cribado se hace en atención primaria: en el pediatra, en el centro de salud, a veces en jardines infantiles. No requiere un psicólogo clínico para administrarlo (el ASQ-3 lo llenan los padres en la sala de espera). Su lógica es la de la salud pública: es mejor pecar de cauteloso y derivar a un niño que probablemente no tiene nada, que perder a un niño que sí necesita intervención temprana.

Escalas diagnósticas

Una escala diagnóstica, en cambio, es larga, profunda y debe administrarla un profesional entrenado. Requiere materiales específicos, un ambiente controlado y tiempo —a veces más de una hora—. Su objetivo no es “ver si hay algo que mirar más de cerca”, sino caracterizar con precisión el perfil de desarrollo del niño en cada dominio. Es el Bayley-III. Es el Battelle. Son los instrumentos que, combinados con observación clínica, historia del desarrollo y evaluación de otros profesionales (fonoaudiólogo, terapeuta ocupacional, neurólogo pediatra), permiten armar un diagnóstico y —más importante aún— un plan de intervención.

La confusión entre estos dos niveles es uno de los errores más frecuentes que veo en la práctica. Llega un niño a consulta con un informe que dice “Denver II: sospecha de retraso global” y los padres están convencidos de que su hijo tiene un diagnóstico. No. Ese papel es una alarma de humo, no un dictamen. Lo que corresponde después de un Denver positivo es una evaluación diagnóstica con un instrumento como Bayley o Battelle, administrada por un profesional entrenado, en un contexto clínico adecuado.

Las principales escalas: un mapa del territorio

Entrar al mundo de las escalas de desarrollo sin un mapa es como entrar a una ferretería sin saber qué viniste a comprar. Hay decenas de instrumentos, cada uno con su historia, su lógica y su mejor contexto de uso. Estas son las que vas a encontrar con más frecuencia en la práctica clínica e investigativa.

Bayley-III (Bayley Scales of Infant and Toddler Development, Third Edition)

Si existe algo parecido a un gold standard en evaluación del desarrollo infantil, es el Bayley. Publicado originalmente por Nancy Bayley en 1969 y revisado en 1993 y 2006, el Bayley-III evalúa niños desde 1 hasta 42 meses de edad. A diferencia de instrumentos más breves, el Bayley-III no se conforma con una impresión general: mide cinco dominios —cognitivo, lenguaje (expresivo y receptivo por separado), motor (grueso y fino también separados), socioemocional y adaptativo—, cada uno con su puntuación escalada y su índice compuesto.

La administración toma entre 45 minutos y hora y media, dependiendo de la edad del niño y de cuántos dominios se evalúen. Requiere un kit de materiales específicos (bloques, tableros, láminas, juguetes con formas) y una habitación tranquila. No es algo que se improvise en el consultorio pediátrico. Pero a cambio entrega un perfil detallado que permite identificar con precisión dónde está el desfase del niño: ¿es un problema de lenguaje expresivo con comprensión preservada? ¿Es una dificultad motora fina que afecta la manipulación de objetos pero no la marcha? Esa granularidad es la que hace del Bayley el instrumento de elección para diagnóstico del desarrollo en la primera infancia.

En investigación, el Bayley-III ha sido el instrumento más utilizado en estudios de seguimiento de niños con riesgo biológico (prematuros, bajo peso al nacer, exposición prenatal a sustancias). Su confiabilidad test-retest es robusta —coeficientes entre .80 y .90 según el dominio— y su validez de criterio está documentada extensamente.

Escalas de Gesell

Antes de Bayley existió Arnold Gesell. Y antes de Gesell, la idea misma de medir el desarrollo de un niño de forma sistemática no existía. Gesell, psicólogo y pediatra estadounidense, fue de los primeros en proponer que el desarrollo infantil sigue una secuencia madurativa predecible, determinada fundamentalmente por la maduración del sistema nervioso central. En los años 1920 y 1930, Gesell y su equipo en Yale observaron a miles de niños y documentaron las edades típicas en que aparecen hitos como la sonrisa social, el agarre de pinza, las primeras palabras, la marcha independiente.

Las Escalas de Desarrollo de Gesell —publicadas en varias ediciones, la más conocida la de 1949 con Amatruda— organizan el desarrollo en cuatro campos: motor, adaptativo, lenguaje y personal-social. Para cada edad clave (4, 16, 28, 40, 52 semanas, y luego 18, 24, 36 meses) se definen hitos esperados. El niño se clasifica en cada campo según su “edad de desarrollo” y se calcula un cociente de desarrollo (DQ, developmental quotient).

La influencia histórica de Gesell es inmensa. Su idea de que el desarrollo tiene una base madurativa y sigue una secuencia predecible sentó las bases para todas las escalas posteriores. Pero su marco teórico también ha sido matizado: la noción de que el desarrollo está determinado principalmente por la biología, con relativamente poco peso del ambiente, no se sostiene igual hoy. Piaget (1952), Vygotsky (1978) y décadas de evidencia sobre plasticidad cerebral y desarrollo sociocultural nos han mostrado que el ambiente, la interacción social y las oportunidades de aprendizaje modulan profundamente la trayectoria del desarrollo.

Dicho esto, los hitos madurativos que Gesell describió siguen siendo útiles como referencia clínica. Muchos pediatras los usan de forma no estructurada en los controles de niño sano: ¿ya se sienta a los 6 meses? ¿ya camina a los 12? La estructura de hitos por edad es un legado que trasciende al instrumento formal.

Denver II (Denver Developmental Screening Test II)

El Denver II es probablemente la escala de desarrollo más conocida entre pediatras y médicos de familia, y con razón: fue diseñada específicamente para ellos. Desarrollado por William Frankenburg y colaboradores en la Universidad de Colorado en 1967 y revisado en 1992 como Denver II, es un instrumento de cribado que evalúa niños desde el nacimiento hasta los 6 años en cuatro áreas: personal-social, motor fino-adaptativo, lenguaje y motor grueso.

El Denver II se administra en 10 a 20 minutos. Consiste en una hoja con los ítems ordenados por edad y por área: el examinador traza una línea vertical correspondiente a la edad del niño y evalúa los ítems que cruzan esa línea. Cada ítem se califica como “pasa”, “falla”, “se rehúsa” o “no hay oportunidad”. La interpretación combina el rendimiento: si falla dos o más ítems en la zona de advertencia (percentil 75-90) o si falla uno o más ítems por debajo del percentil 90 (zona de retraso), el resultado se considera sospechoso o anormal.

La gran virtud del Denver II es su accesibilidad. Cualquier profesional de salud puede administrarlo con un entrenamiento breve. No requiere materiales costosos (una sonaja, un bloque, una hoja de papel). Y cubre el rango de edad completo de la primera infancia, lo que lo hace ideal para los controles de niño sano.

Su limitación principal es su precisión. Varios estudios han documentado que el Denver II tiene una sensibilidad moderada —identifica correctamente entre el 50% y el 70% de los niños con retraso, según la muestra— y una especificidad variable. Esto significa que deja pasar una proporción significativa de niños con problemas reales y genera una cantidad sustancial de falsos positivos. Por eso el Denver II nunca debe usarse como instrumento diagnóstico: su función es identificar niños que necesitan evaluación adicional, no clasificarlos.

Battelle Developmental Inventory (BDI-2)

El Battelle es el instrumento más comprehensivo que vas a encontrar. Desarrollado originalmente en los años 1980 y revisado como BDI-2 en 2005, evalúa niños desde el nacimiento hasta los 7 años 11 meses —más allá del rango del Bayley— en cinco dominios: personal-social, adaptativo, motor, comunicación y cognitivo. Cada dominio se subdivide en subdominios, y cada subdominio en ítems específicos.

La gran ventaja del Battelle es que puede usarse tanto para cribado como para evaluación diagnóstica, dependiendo de cuántos dominios se administren y cómo se interpreten los resultados. Existe una versión de cribado (BDI-2 Screening Test) que toma 10-30 minutos y una versión completa que puede tomar una a dos horas. Esta flexibilidad lo hace útil en contextos donde se necesita un solo instrumento que sirva para múltiples propósitos: identificación inicial, evaluación profunda y monitoreo del progreso tras la intervención.

El Battelle es además uno de los pocos instrumentos que incluye una evaluación estructurada de habilidades adaptativas —comer, vestirse, higiene personal—, lo que lo hace valioso cuando se evalúan niños con sospecha de discapacidad intelectual o cuando se necesita información para planificar servicios de intervención temprana.

ASQ-3 (Ages and Stages Questionnaires, Third Edition)

El ASQ-3 representa una filosofía diferente: en lugar de que un profesional evalúe al niño en una sala de pruebas, son los padres quienes responden un cuestionario estructurado sobre el desarrollo de su hijo. Hay 21 cuestionarios diferentes, uno para cada intervalo de edad entre los 2 y los 60 meses. Cada cuestionario tiene 30 ítems divididos en cinco áreas: comunicación, motor grueso, motor fino, resolución de problemas y personal-social.

Los padres responden cada ítem con “sí” (el niño hace esto), “a veces” (lo hace de forma emergente o inconsistente) o “todavía no”. Cada respuesta tiene una puntuación y el total por área se compara con puntos de corte establecidos. Si el niño cae en la zona de riesgo en una o más áreas, se recomienda derivación para evaluación diagnóstica.

La elegancia del ASQ-3 está en su costo-efectividad. No requiere un profesional para administrarlo. No requiere sala de evaluación. No requiere materiales. Se puede llenar en la sala de espera del pediatra, enviarse por correo o completarse en línea. Esto lo convierte en el instrumento ideal para programas de cribado poblacional a gran escala. Varios estados en Estados Unidos lo han adoptado como instrumento de cribado universal en atención primaria, y ha sido adaptado y validado en múltiples idiomas y contextos culturales.

La validez del ASQ-3 está bien documentada. Estudios de validez concurrente con el Bayley-III muestran correlaciones moderadas a altas, con sensibilidad y especificidad que en algunas muestras superan las del Denver II. La cara opuesta de la moneda es que al depender del reporte parental, el ASQ puede verse afectado por sesgos: padres muy ansiosos pueden subestimar las habilidades del niño, mientras que padres poco observadores pueden pasar por alto dificultades reales. La estructura de tres opciones (“sí / a veces / todavía no”) mitiga parcialmente esto, pero no lo elimina.

McCarthy Scales of Children’s Abilities

Las Escalas de McCarthy, publicadas en 1972, fueron en su momento una herramienta ampliamente utilizada para evaluar el desarrollo cognitivo de niños entre 2 años 6 meses y 8 años 6 meses. Dorothea McCarthy diseñó el instrumento con seis escalas: verbal, perceptivo-manipulativa, numérica, memoria, motora y cognitiva general. Las cinco primeras se combinan para producir un Índice de Cognición General (GCI).

El McCarthy fue importante porque introdujo la idea de que el desarrollo cognitivo no es un constructo unitario sino multidimensional: un niño puede tener fortalezas en lo verbal y debilidades en lo perceptivo-manipulativo, y el instrumento permite visualizar ese perfil. En los años 1970 y 1980 fue ampliamente utilizado en investigación y en evaluación clínica, particularmente para identificar niños con dificultades de aprendizaje antes de que existieran instrumentos específicos para eso.

Hoy en día el McCarthy se usa poco. Las normas datan de 1972, lo que significa que los baremos están desactualizados —la población infantil ha cambiado en cinco décadas—, y existen instrumentos más modernos (WPPSI-IV, KABC-II) que evalúan el funcionamiento cognitivo con mejor fundamentación psicométrica y teórica. Pero su contribución histórica es innegable: fue de las primeras escalas en tratar el desarrollo cognitivo como un perfil de fortalezas y debilidades, no como un número único.

Tabla comparativa: las seis escalas en perspectiva

Antes de la tabla, una aclaración: los rangos de edad y las áreas son los oficiales según los manuales de cada instrumento. La columna “tipo” indica si el instrumento está diseñado para cribado (identificación inicial, derivación) o para evaluación diagnóstica (caracterización del perfil del desarrollo). Algunos instrumentos —como el Battelle— pueden cumplir ambas funciones según cómo se usen.

Escala	Rango de edad	Áreas que evalúa	Tipo	Referencia
Bayley-III	1–42 meses	Cognitivo, lenguaje (receptivo/expresivo), motor (grueso/fino), socioemocional, adaptativo	Diagnóstico	Bayley (2006)
Gesell	4 semanas–6 años	Motor, adaptativo, lenguaje, personal-social	Referencial / diagnóstico	Gesell & Amatruda (1949)
Denver II	0–6 años	Personal-social, motor fino-adaptativo, lenguaje, motor grueso	Cribado	Frankenburg et al. (1992)
BDI-2	0–7 años 11 meses	Personal-social, adaptativo, motor, comunicación, cognitivo	Cribado y diagnóstico	Newborg (2005)
ASQ-3	2–60 meses	Comunicación, motor grueso, motor fino, resolución de problemas, personal-social	Cribado	Squires et al. (2009)
McCarthy	2 años 6 meses–8 años 6 meses	Verbal, perceptivo-manipulativa, numérica, memoria, motora, cognitiva general	Diagnóstico (histórico)	McCarthy (1972)

La tabla sirve como referencia rápida, pero no reemplaza el juicio clínico. Un instrumento que luce bien en una tabla puede ser el equivocado para un niño en particular, para un contexto específico o para una pregunta clínica concreta.

Evidencia psicométrica: ¿qué tan bien funcionan estas escalas?

Toda escala de desarrollo tiene que demostrar dos cosas: que mide de forma consistente (confiabilidad) y que mide lo que pretende medir (validez). Sin estos datos, un instrumento es una lista de preguntas sin respaldo.

Confiabilidad

La confiabilidad test-retest del Bayley-III se reporta con coeficientes entre .80 y .90 para los distintos dominios, lo que significa que si evaluás al mismo niño dos veces con un intervalo de una a dos semanas, los resultados van a ser bastante similares. Para el ASQ-3, los estudios reportan confiabilidades test-retest entre .70 y .90 según el grupo de edad. El Denver II tiene coeficientes test-retest reportados alrededor de .90 para la reproductibilidad entre examinadores, aunque la estabilidad temporal (evaluaciones separadas por semanas) es más modesta.

La confiabilidad entre examinadores (inter-rater) es crucial para escalas que pueden administrar distintos profesionales: si dos psicólogos evalúan al mismo niño, ¿llegan a resultados similares? El Bayley-III reporta acuerdos inter-examinador superiores al .90, lo cual es esperable dado su estructura altamente estandarizada. El Denver II, al depender más de la observación del examinador, tiene mayor variabilidad.

Validez y precisión diagnóstica

Aquí es donde la literatura se vuelve más interesante —y donde las escalas de cribado se separan de las diagnósticas con más claridad.

El estudio clásico de Glascoe, Martin y Menutt (1992) evaluó la precisión del Denver-II comparándolo con medidas de referencia como el Stanford-Binet y el Bayley. Los resultados mostraron una sensibilidad del 83% pero una especificidad de sólo el 43%, lo que significa que identificaba correctamente a la mayoría de los niños con retraso, pero generaba una gran cantidad de falsos positivos: más de la mitad de los niños sin problemas eran marcados como sospechosos.

Glascoe (2005) revisó estos hallazgos y concluyó que el Denver II, si bien útil como herramienta de cribado rápido, tiene limitaciones importantes cuando se lo compara con instrumentos más estructurados. La recomendación clínica es clara: un Denver II positivo requiere siempre confirmación con un instrumento diagnóstico.

El ASQ-3 ha mostrado mejores propiedades psicométricas en varios estudios. Un estudio de validez concurrente publicado por Gollenberg y colaboradores (2010) evaluó la correspondencia entre el ASQ y evaluaciones diagnósticas directas en una muestra de niños de bajo riesgo socioeconómico. Los resultados mostraron que el ASQ identificaba correctamente la mayoría de los niños con desarrollo típico y una proporción significativa de los niños con retraso, aunque con variabilidad según el dominio y la edad. La sensibilidad reportada para el ASQ-3 oscila entre el 70% y el 90% según el estudio, con especificidades entre el 70% y el 85% —generalmente superior al Denver II en muestras comparables—.

Para el Battelle BDI-2, los manuales técnicos reportan confiabilidades alfa de Cronbach entre .90 y .98 para los distintos dominios, lo que indica una consistencia interna alta. Su validez de criterio se ha evaluado contra el Bayley y otras medidas, con correlaciones moderadas a altas.

La trampa de la sensibilidad y la especificidad

Cuando leés que un instrumento tiene “sensibilidad del 83%”, es fácil pensar que acierta el 83% de las veces. No es así. La sensibilidad te dice: de cada 100 niños que efectivamente tienen un retraso del desarrollo, ¿cuántos detecta el instrumento? Si la sensibilidad es del 83%, detecta a 83 y se le escapan 17. Esos 17 son falsos negativos: niños con un problema real a los que el instrumento les dijo “está bien”. La especificidad, por su parte, te dice: de cada 100 niños sin ningún problema, ¿a cuántos el instrumento les dice correctamente que no tienen nada? Una especificidad del 43% significa que a 57 niños sin problema se les marca como sospechosos.

Esto tiene implicaciones prácticas enormes. Un instrumento con baja especificidad genera ansiedad innecesaria en padres, sobrecarga los servicios de evaluación diagnóstica con derivaciones que no corresponden, y puede llevar a etiquetar niños sanos como “en riesgo”. Un instrumento con baja sensibilidad, peor aún: deja sin ayuda a niños que la necesitan durante una ventana crítica del desarrollo.

No existe el instrumento perfecto. La elección es siempre un compromiso entre sensibilidad y especificidad, entre costo y precisión, entre accesibilidad y profundidad.

Aplicación clínica: cómo elegir una escala

Después de años evaluando niños y asesorando a colegas, tengo un sistema simple para elegir escala. Se basa en tres preguntas.

1. ¿Qué edad tiene el niño?

Si tiene menos de 42 meses y necesitas una evaluación diagnóstica profunda, el Bayley-III es casi siempre la mejor opción. Si tiene entre 3 y 7 años, el Battelle BDI-2 cubre ese rango con una evaluación comprehensiva. Si necesitas algo para niños mayores (6-8 años), aunque el McCarthy es históricamente relevante, hoy probablemente vas a recurrir a pruebas cognitivas específicas (WPPSI-IV para preescolares, WISC-V para escolares) complementadas con evaluación de áreas específicas.

2. ¿Cuál es el objetivo de la evaluación?

Si el objetivo es cribado —identificar rápidamente quién necesita evaluación adicional en una población—, el ASQ-3 es la primera elección por su costo-efectividad y porque lo completan los padres. El Denver II es una alternativa razonable cuando se cuenta con un examinador entrenado pero no con tiempo para un protocolo largo.

Si el objetivo es diagnóstico —caracterizar el perfil de desarrollo, determinar si hay un desfase clínicamente significativo y en qué dominios—, necesitas un Bayley-III o un Battelle. No hay atajos.

Si el objetivo es investigación, el Bayley-III es el más utilizado y el que permite comparar resultados con la literatura existente. Si el estudio incluye niños mayores de 42 meses, el Battelle es la opción lógica.

3. ¿En qué contexto se va a aplicar?

En atención primaria (pediatría, centro de salud): ASQ-3 o Denver II. Son rápidos, económicos y no requieren un psicólogo.

En consulta psicológica especializada: Bayley-III o Battelle. Requieren entrenamiento, materiales y tiempo, pero entregan el nivel de detalle que necesitas para un diagnóstico y un plan de intervención.

En escuela o contexto educativo: el Battelle tiene la ventaja de evaluar habilidades adaptativas que son directamente relevantes para el funcionamiento escolar. También existen instrumentos específicos para el contexto educativo (como las baterías de evaluación curricular o los procesos del modelo Response to Intervention), pero ese es otro artículo.

En investigación: Bayley-III para estudios de seguimiento del desarrollo en la primera infancia. Battelle para estudios con rangos de edad más amplios.

Un protocolo práctico

En mi consulta sigo más o menos este flujo:

Derivación del pediatra (habitualmente con un Denver II o ASQ-3 positivo).
Entrevista con los padres: historia del embarazo, parto, hitos del desarrollo, antecedentes familiares, observaciones propias.
Evaluación con Bayley-III (si el niño está en el rango de edad) o Battelle.
Evaluación complementaria según el caso: audiológica (siempre que haya retraso de lenguaje), fonoaudiológica, valoración neurológica.
Devolución a los padres: explico los resultados, respondo preguntas, y diseño con ellos un plan de intervención si es necesario.

La escala es una pieza del rompecabezas. No es el rompecabezas entero.

Lo que la escala NO mide

Aquí llegamos a la parte que más me interesa comunicar, porque es donde veo más sufrimiento innecesario en los padres.

La escala no predice el futuro

Un puntaje bajo en el Bayley-III a los 18 meses no significa que ese niño va a tener dificultades para siempre. El desarrollo infantil no es una línea recta. Hay niños que puntúan bajo a los 12 o 18 meses —especialmente niños nacidos prematuros o con factores de riesgo biológico— y que, con intervención temprana o incluso sin ella, alcanzan a sus pares antes de los 4 o 5 años. La plasticidad del cerebro en desarrollo es enorme, particularmente en los primeros tres años de vida. Una evaluación es una foto en un momento; la trayectoria del desarrollo es una película.

La escala no mide potencial

Lo que una escala mide es el desempeño actual del niño en tareas específicas, comparado con un baremo. No mide lo que el niño podría lograr con oportunidades diferentes, con más estimulación, con un mejor ambiente de aprendizaje o con intervención específica. Un niño que crece en un entorno de pobreza extrema, con escasa estimulación y limitadas oportunidades de interacción, puede puntúar bajo en una escala de desarrollo sin que eso diga nada sobre su potencial innato. La confusión entre desempeño actual y potencial es uno de los errores más dañinos que se pueden cometer con un niño.

La escala no sustituye el juicio clínico

Tengo en mi consulta una regla personal: nunca entrego un diagnóstico basándome únicamente en un puntaje de escala. La escala es un dato. Se integra con la observación clínica (¿cómo se relaciona el niño conmigo durante la evaluación? ¿Cómo explora los materiales? ¿Cómo responde a la frustración?), con la historia del desarrollo (¿ha habido progresión o estancamiento? ¿Cómo es el ambiente familiar?), con la información de otros profesionales y con lo que los padres reportan sobre el funcionamiento diario del niño. Si el Bayley dice que hay un retraso pero mi observación clínica y la historia del niño me dicen otra cosa, no ignoro la escala, pero tampoco la obedezco ciegamente. La escala sirve al clínico, no al revés.

La escena de los padres obsesionados con el puntaje

Hace un tiempo tuve en consulta a una pareja que había llevado a su hija de dos años a una evaluación con otra profesional. Les entregaron un informe que decía “Índice de Cognición: 82”. Para ellos ese número era un veredicto. Lo buscaron en Google. Descubrieron que 82 está por debajo del promedio. Empezaron a tratar a su hija como si tuviera una limitación permanente. La inscribieron a cinco terapias simultáneas. Dejaron de llevarla al parque “porque no iba a poder”. Le hablaban despacio, con frases de dos palabras, como si no pudiera procesar más.

Cuando los vi, la niña estaba angustiada. No por su cognición, sino porque sus padres habían dejado de verla como una niña y empezado a verla como un diagnóstico. Les dije lo mismo que les digo a todos los padres en esa situación: “Tu hija es la misma niña que era antes de que le tomaran esa prueba. El número describe cómo le fue ese día con esos juguetes en esa sala. No describe quién es ni quién va a ser”.

Esa es la parte que más cuesta transmitir. Vivimos en una cultura que trata los números como verdades absolutas. Si un test dice 82, entonces 82 es lo que el niño es. Pero la psicología del desarrollo es más compleja, más incierta y —afortunadamente— más esperanzadora que eso.

Cierre: la foto de Mateo

Volvamos a Mateo, el niño de tres años que no hablaba.

Lo evalué con el Bayley-III. El resultado fue interesante: su índice cognitivo estaba dentro del rango promedio (98), su motor grueso y fino también estaban en lo esperado para su edad, pero su índice de lenguaje receptivo estaba en el percentil 5 y el expresivo en el percentil 2. Es decir, comprendía bastante más de lo que producía, pero incluso su comprensión estaba por debajo de lo esperable.

Antes de la evaluación, los padres imaginaban un diagnóstico único que explicara todo: autismo, discapacidad intelectual, algo orgánico. La escala les permitió ver algo diferente: un niño con buenas capacidades cognitivas y motoras, con interés social adecuado (lo había observado durante toda la sesión), pero con un desfase específico y significativo en lenguaje. Eso cambiaba todo. No era un retraso global. Era un problema focalizado que podía trabajarse.

Lo derivé a fonoaudiología. Solicité una evaluación audiológica (que salió normal). Recomendé a los padres estrategias de estimulación del lenguaje en casa: narrar las actividades cotidianas en voz alta, leer cuentos diariamente, dar tiempo para que Mateo intente producir sonidos antes de anticiparle lo que quiere, reducir las preguntas cerradas y aumentar los comentarios abiertos. Vimos a Mateo cada tres meses para monitorear su progreso.

A los tres años y ocho meses, Mateo producía frases de tres palabras. A los cuatro años, hablaba con oraciones completas, contaba historias y —según su madre— “no paraba de hablar”. El puntaje de su última evaluación con el Bayley-III mostró un índice de lenguaje dentro del rango promedio.

Cuando le entregué los resultados a los padres, la madre se quedó mirando el papel y me dijo: “¿Entonces no tenía nada?”. Y le respondí lo que le respondo a todos los padres en ese momento: “Sí tenía algo. Tenía un retraso del lenguaje. Lo identificamos, lo trabajamos, y evolucionó. La escala nos ayudó a saber exactamente dónde estaba el problema para poder intervenir. Pero la escala no predijo quién iba a ser Mateo. Mateo hizo el trabajo, con la ayuda de ustedes, de la fonoaudióloga y de su propio desarrollo”.

La escala no fue un veredicto. Fue una herramienta. Una fotografía que nos mostró qué necesitaba ese niño en ese momento. Y cuando se usa así —como una herramienta al servicio del niño y su familia, no como una etiqueta— las escalas de desarrollo son de lo más valioso que tenemos en psicología clínica infantil.

Pero sólo si recordamos, siempre, que el niño es más que el número.

Referencias

Bayley, N. (2006). Bayley Scales of Infant and Toddler Development (3rd ed.). San Antonio, TX: Harcourt Assessment. https://doi.org/10.1037/t14978-000
Bayley, N. (1993). Bayley Scales of Infant Development (2nd ed.). San Antonio, TX: Psychological Corporation.
Frankenburg, W. K., Dodds, J., Archer, P., Shapiro, H., & Bresnick, B. (1992). The Denver II: A major revision and restandardization of the Denver Developmental Screening Test. Pediatrics, 89(1), 91–97. https://doi.org/10.1542/peds.89.1.91
Gesell, A., & Amatruda, C. S. (1949). Developmental Diagnosis: Normal and Abnormal Child Development (2nd ed.). New York: Hoeber.
Glascoe, F. P. (2005). Screening for developmental and behavioral problems. Mental Retardation and Developmental Disabilities Research Reviews, 11(3), 173–179. https://doi.org/10.1002/mrdd.20068
Glascoe, F. P., Martin, E. D., & Menutt, J. C. (1992). Accuracy of the Denver-II in developmental screening. Pediatrics, 89(6), 1221–1225. https://doi.org/10.1542/peds.89.6.1221
Gollenberg, A. L., Lynch, C. D., Jackson, L. W., McGuinness, B. M., & Msall, M. E. (2010). Concurrent validity of the parent-completed Ages and Stages Questionnaires, 2nd Edition, with the Bayley Scales of Infant Development II in a low-risk sample. Child: Care, Health and Development, 36(4), 485–490. https://doi.org/10.1111/j.1365-2214.2009.01041.x
McCarthy, D. (1972). McCarthy Scales of Children’s Abilities. New York: Psychological Corporation.
Newborg, J. (2005). Battelle Developmental Inventory (2nd ed.). Itasca, IL: Riverside Publishing. https://doi.org/10.1037/t05527-000
Piaget, J. (1952). The Origins of Intelligence in Children. New York: International Universities Press. https://doi.org/10.1037/11494-000
Squires, J., Bricker, D., & Twombly, E. (2009). Ages and Stages Questionnaires (3rd ed.). Baltimore: Brookes Publishing. https://doi.org/10.1037/t11523-000
Vygotsky, L. S. (1978). Mind in Society: The Development of Higher Psychological Processes. Cambridge, MA: Harvard University Press.

Siguiente paso de estudio

Guía gratuita de estudio DSM-5-TR

20 cuadros clínicos para ubicar sin diagnosticar

Mapa educativo para estudiantes: señales orientativas, diferenciales frecuentes y alertas éticas. No incluye dosis ni indicaciones médicas.

Material educativo. No diagnostica, no sustituye evaluación clínica ni reemplaza el manual DSM-5-TR.

Ver qué incluye esta guía