La IA resuelve ecuaciones y pica código, pero sigue bloqueándose con los PDF: la explicación evidencia sus límites

La IA no falla por falta de capacidad, sino por cómo está construido el PDF
El formato prioriza la fidelidad visual frente a la estructura lógica

TECNOLOGIA27/02/2026

Probablemente te haya pasado. Subes un PDF a un chatbot de inteligencia artificial con la esperanza de que te resuma un informe, te extraiga una tabla o te encuentre un dato concreto en cuestión de segundos. Y, a veces, lo consigue. Pero otras, el resultado es desconcertante: columnas mezcladas, notas al pie incrustadas en mitad del texto, tablas convertidas en un bloque ilegible o respuestas que no reflejan fielmente lo que pone el documento. La paradoja es evidente. Sistemas que ya demuestran avances claros en matemáticas y programación siguen tropezando con algo tan cotidiano como un PDF. Y ahí hay más que un simple fallo puntual.

Cambio de mentalidad. Aunque para nosotros sea un documento con párrafos, títulos y tablas bien definidos, para el sistema que lo procesa la situación puede ser muy distinta. El PDF es, ante todo, una forma de describir visualmente cómo debe representarse una página. Y cuando un chatbot como Gemini o ChatGPT intenta trabajar con él, no siempre accede a una estructura ordenada, sino a un conjunto de instrucciones gráficas que primero debe reconstruir antes de poder responder con coherencia. Y esa diferencia se entiende mejor cuando miramos cómo “guarda” la información un PDF.

Cómo organiza realmente la información. A diferencia de una página web, donde el contenido sigue un orden lógico definido en el código, un PDF puede almacenar el texto como fragmentos independientes colocados en posiciones concretas de la página. Muchas veces, el archivo conserva coordenadas e instrucciones de colocación, pero no necesariamente relaciones explícitas entre una frase y la siguiente. Eso implica que el orden en el que “aparece” el texto al extraerlo no siempre coincide con el orden en que lo leemos. Si el documento incluye varias columnas, cuadros o elementos superpuestos, el sistema debe deducir cómo encajan entre sí. Y esa deducción no siempre es trivial.

Lo que ocurre con HTML. En una página web, el contenido está organizado en una jerarquía explícita: hay etiquetas que indican qué es un título, qué es un párrafo, qué es una tabla y cómo se relacionan entre sí esos elementos. Esa estructura forma parte del propio archivo y facilita que otros sistemas lo lean, lo indexen y lo procesen. En un PDF, como hemos visto, esa capa semántica puede no existir o no estar claramente definida. Por eso, en la práctica, extraer información de una web tiende a ser un proceso más predecible, mientras que hacerlo desde un PDF es todo más complicado.

Entonces, ¿qué pasa con el OCR? Es la primera solución que viene a la cabeza. Si el problema es que el texto no está bien estructurado o incluso está “dibujado” como una imagen, el reconocimiento óptico de caracteres debería convertirlo en algo legible para la máquina. Y en parte lo hace. El OCR se usa desde hace décadas para transformar imágenes de palabras en texto, pero convertir una imagen en texto no equivale a reconstruir la lógica del documento. Cuando hay elementos variados, el sistema puede reconocer cada palabra sin saber exactamente cómo encajan entre sí. El resultado no es un fallo en la lectura de caracteres, sino en la organización de la información.

¿Por qué no abandonamos el PDF? La respuesta es más pragmática que tecnológica. Como recoge The Verge citando al responsable de la PDF Association, el formato se consolidó precisamente porque permite que un documento se vea igual hoy que dentro de diez o veinte años, independientemente del dispositivo o el software con el que se abra. Una página web puede cambiar según el navegador, una hoja editable puede modificarse o sobrescribirse, pero un PDF mantiene su apariencia y su integridad visual. Esa estabilidad es precisamente lo que necesitan abogados, ingenieros, administraciones públicas y cualquier organización que deba conservar registros fiables. El reto no es sustituir el formato, sino aprender a interpretarlo mejor.

Tecnologia

Te puede interesar

Irán no solo está resistiendo en el frente militar: sus ataques cibernéticos en todo el mundo siguen hiperactivos

TECNOLOGIA20/03/2026

Irán intensifica el frente cibernético mientras la escalada militar sigue abierta
El ataque a Stryker muestra impacto real con cirugías reprogramadas

Aunque cortáramos la mayoría de cables submarinos Bitcoin seguiría funcionando: su mayor amenaza es otra

TECNOLOGIA19/03/2026

Bitcoin resiste fallos aleatorios de cables mucho mejor de lo que parece
El verdadero riesgo aparece cuando el ataque se dirige a puntos clave del enrutamiento

Una IA para reunir todas las funciones posibles: la apuesta de Mistral con Small 4 es hacer más con menos cosas

TECNOLOGIA18/03/2026

Small 4 intenta reunir conversación razonamiento análisis multimodal y programación en un solo sistema
Utiliza una arquitectura Mixture of Experts con 128 expertosSmall 4 intenta reunir conversación razonamiento análisis multimodal y programación en un solo sistema
Utiliza una arquitectura Mixture of Experts con 128 expertos

China ya tiene dos fabricantes de chips con tecnología de 7 nm. Es una malísima noticia para EEUU y sus aliados

TECNOLOGIA17/03/2026

Huali Microelectronics se está preparando para iniciar la producción de chips de 7 nm en su planta de Shanghái
Al igual que SMIC, Huali no tiene acceso a los equipos UVE de ASML
Es muy probable que con la ayuda de Huawei haya puesto a punto técnicas de 'multiple patterning'

Los fabricantes chinos de memorias ya no son actores secundarios: son el salvavidas del mercado de consumo

TECNOLOGIA16/03/2026

SK Hynix, Samsung y Micron han reasignado alrededor del 70% de sus líneas de producción a las memorias HBM
La memoria RAM ha pasado de representar el 16% del coste total de un ordenador portátil en 2026 al 23%
CXMT ha escalado su capacidad de producción hasta alcanzar una cuota en el mercado global de entre el 11 y el 13%

Si esperabas una bajada del precio de la RAM este año, la guerra de Irán tiene un mensaje para ti: olvídate

Francisco

TECNOLOGIA13/03/2026

La subida del precio de los chips de memoria obedece a la altísima demanda de esta clase de circuitos integrados procedente de los centros de datos para IA
El coste de las memorias con toda probabilidad no se reducirá tan pronto como a los usuarios nos gustaría

Lo más visto

Disney sigue apostando por los live-action y ahora revela a su nueva villana

por Jordan Reviews

CINE Y SERIES13/03/2026

The Walt Disney Company continúa ampliando el elenco de su próximo live-action de Enredados y finalmente reveló quién interpretará a su icónica villana

Hu_260313_Deportes_Motor_Formula_1_Colapinto_Qualy_Sprint_China_News

El sincero análisis de Franco Colapinto tras su nivel en la clasificación Sprint de China: “Estoy un poco perdido, quedé lejos de Gasly”

DEPORTES13/03/2026

El argentino quedó a casi un segundo de su compañero de Alpine y largará 16° la carrera rápida de este sábado. Pierre Gasly comenzará 7°

selena-quintanilla-1994-grammys-billboard-1800

Hermana de Selena demanda a Shein por uso de imagen en mercancía no autorizada

MUSICA13/03/2026

La demanda alega que el gigante del comercio electrónico está infringiendo múltiples marcas comerciales relacionadas con Selena propiedad de Suzette Quintanilla y su empresa.

Con goles de Driussi y Subiabre, River Plate venció 2-0 a Sarmiento y se acomodó en la Zona B del Torneo Apertura

DEPORTES16/03/2026

Luego de debutar con una victoria sobre Huracán, el Millonario sumó la segunda alegría al hilo, en el primer juego del Chacho Coudet como DT en el Monumental

Las Fuerzas de Defensa de Israel abatieron a terroristas de Hezbollah en una operación en el sur de Líbano

ACTUALIDAD16/03/2026

Efectivos israelíes llevaron a cabo incursiones con apoyo aéreo sobre posiciones identificadas como hostiles mientras, en paralelo, incautaron material bélico en instalaciones utilizadas por el grupo libanés

Evangelina Anderson habló de su separación de Martín Demichelis: “Dios me sacó la venda de los ojos”

SHOW 18/03/2026

La modelo compartió con honestidad los desafíos emocionales vividos tras el final de su matrimonio con el entrenador

El tráiler de Dune: Parte 3 ya está aquí… y confirma lo que muchos temían!