Amazon ha lanzado una inteligencia artificial llamada Textract para sus clientes de servicios web, y es como el reconocimiento óptico de caracteres (OCR) con esteroides.
Más que simplemente extraer texto de documentos como su nombre lo indica, Amazon dice que puede identificar diferentes formatos de documentos y sus contenidos para procesarlos correctamente.
El producto fue diseñado para poder reconocer si está tomando texto de tablas y formularios de documentos, incluidos recibos escaneados, documentos fiscales o inventarios.
Luego genera datos estructurados que no necesitan entrada humana.
Dado que los OCR básicos generalmente escupen información confusa al tomar texto de tablas y formularios, las compañías tienen que recurrir a la entrada de datos manual que puede ser costosa y requerir mucho tiempo.
Textract puede procesar millones de páginas en unas pocas horas, lo que puede reducir los costos de procesamiento de documentos.
Además, los clientes pueden usarlo aunque no tengan experiencia previa en aprendizaje automático.
Amazon dice que Textract puede reconocer información como nombres y números de seguridad social, lo que le permite transferir datos de tablas de archivos PDF, por ejemplo, a hojas de cálculo de fácil búsqueda.
Para pilas de documentos mucho más grandes, la información que extrae podría usarse para crear búsquedas inteligentes o podría cargarse en bases de datos.
La mala noticia para algunos clientes de AWS es que el producto solo está disponible en algunas partes de los EE. UU. (Ohio, N. Virginia, Oregon) e Irlanda por ahora.
Sin embargo, se abrirá camino a más regiones durante el próximo año.
Fuente: Engadget