El objetivo del proyecto es aplicar técnicas que permitan búsquedas textuales en colecciones masivas de manuscritos de los siglos XV-XVI que contienen información clave para identificar pecios de miles de naufragios ocurridos durante ese periodo.
El proyecto se centrará en 150.000 imágenes de colecciones de interés para la arqueología subacuática pertenecientes al Archivo General de Indias y al Archivo Histórico Provincial de Cádiz. Se trata de manuscritos relacionados con viajes y comercio naval español durante los siglos XV-XIX. Para este tipo de manuscritos las técnicas de OCR (pensadas para texto impreso) son totalmente inservibles. Por otra parte, técnicas más modernas, específicamente desarrolladas para materiales manuscritos, generalmente solo consiguen resultados de transcripción que son demasiado erróneos cuando se aplican a la mayoría de los textos históricos de interés.
Sin embargo, el equipo de investigación de Carabela, ha desarrollado metodologías de aprendizaje automático que permiten indexar probabilísticamente imágenes de texto manuscrito. Esta indexación permite realizar búsquedas textuales aproximadas (pero eficaces) en colecciones masivas de manuscritos históricos sin transcribir.
Estas técnicas se adaptarán a las dificultades específicas de los manuscritos de Carabela lo que permitirá la búsqueda manual de información en los manuscritos considerados. Estos manuscritos componen una gran colección de documentos sobre naufragios, cuyos contenidos constituyen un patrimonio arqueológico de enorme importancia histórica y cultural.
El proyecto va un paso más allá de la indexación para búsquedas manuales. En él se desarrollarán nuevas técnicas de recuperación de la información que permitan la extracción efectiva de información valiosa de imágenes de texto sin transcribir. El objetivo final es clasificar automáticamente imágenes de texto manuscrito según su "nivel de riesgo" de exposición pública, con objeto de controlar el acceso a las mismas y evitar en lo posible el expolio del patrimonio subacuático español.