Автоматизированное извлечение метаданных из PDF-документов с помощью Power Automate

В современном цифровом мире автоматическое извлечение метаданных из PDF-документов необходимо компаниям для эффективной обработки информации. С помощью таких инструментов, как Microsoft Power Automate, можно оптимизировать бизнес-процессы за счет оцифровки повторяющихся задач.

Предпосылки и рабочий процесс

Компании регулярно получают от партнеров, клиентов или поставщиков услуг документы в формате PDF, содержащие важные бизнес-данные. В прошлом управление этими документами осуществлялось вручную, но в настоящее время наблюдается тенденция к автоматизации. Несмотря на автоматизацию, логическая проверка полученных данных все равно должна быть частью процесса.

Обзор поставщиков услуг

Существуют различные сторонние поставщики, которые помогают автоматически извлекать текст из документов. Эти функции могут быть дополнительно обработаны в среде Office 365.

Поставщик Место Характеристики Бесплатный контингент в месяц
Энкодиан ВЕЛИКОБРИТАНИЯ. Извлечение текста из PDF-документов 50 документов
Docparser США. Извлечение текста из PDF-документов 30 документов
Parserr.com США. Извлечение текста из электронных писем и их вложений 10 документов
Aquaforest ВЕЛИКОБРИТАНИЯ. Извлечение текста из PDF-файлов 100 документов

Провайдеры позволяют отправлять документы в виде вложений по электронной почте или в виде файлов, а затем анализировать их с помощью технологии OCR и возвращать в виде метаданных.

Интеграция с Microsoft Power Automate

Автоматизация поддерживается возможностью интеграции с такими платформами, как Zapier.com, IFTTT.com и PowerAutomate достигнуто. Основное внимание здесь уделяется интеграции с Power Automate для беспрепятственного создания рабочих процессов.

Поставщик Интеграция с PowerAutomate Шаблоны для потоков
Энкодиан Разъем в наличии нет
Docparser Разъем в наличии Да
Парсер Разъем в наличии Да
Aquaforest Разъем в наличии Да

В частности, с помощью Parserr вы можете настроить конечные точки для получения писем, чтобы напрямую интегрировать письма с вложениями.

Решения Microsoft

Компания Microsoft представила платный продукт „SharePoint Syntex“, который основан на проекте „Cortex“. Этот инструмент использует искусственный интеллект для извлечения метаданных. После извлечения информация сохраняется в столбцах метаданных библиотек документов. Однако в настоящее время он не имеет прямого применения в Power Automate.

В качестве альтернативы Microsoft предлагает Распознаватель форм от Azure Cognitive Services. Эта услуга доступна в Европе, например во Франции или Великобритании, и предлагает бесплатную квоту в 500 страниц в месяц.