Automatisierte Extraktion von Metadaten aus PDF-Dokumenten mit Power Automate

In der heutigen digitalen Welt ist die automatisierte Extraktion von Metadaten aus PDF-Dokumenten für Unternehmen unverzichtbar, um Informationen effizient zu verarbeiten. Mit Tools wie Microsoft Power Automate können Geschäftsabläufe optimiert werden, indem wiederkehrende Aufgaben digitalisiert werden.

Hintergrund und Workflow

Unternehmen erhalten regelmäßig PDF-Dokumente von Partnern, Kunden oder Dienstleistern, die wichtige Geschäftsdaten enthalten. Diese Dokumente manuell zu verwalten war in der Vergangenheit üblich, aber der aktuelle Trend geht hin zur Automatisierung. Trotz der Automatisierung sollte eine logische Prüfung der empfangenen Daten immer noch Teil des Prozesses sein.

Übersicht der Anbieter

Es gibt verschiedene Drittanbieter, die bei der automatisierten Textextraktion aus Dokumenten helfen. Diese Funktionen können innerhalb der Office 365-Umgebung weiterverarbeitet werden.

Anbieter Sitz Features Kostenloses Kontingent pro Monat
Encodian U.K. Text-Extraktion aus PDF-Dokumenten 50 Dokumente
Docparser U.S. Text-Extraktion aus PDF-Dokumenten 30 Dokumente
Parserr.com U.S. Text-Extraktion aus E-Mails und deren Anhängen 10 Dokumente
Aquaforest U.K. Text-Extraktion aus PDFs 100 Dokumente

Die Anbieter ermöglichen es, dass Dokumente per E-Mail-Anlage oder als Datei versendet werden und anschließend mittels OCR-Technologie analysiert und als Metadaten zurückgeliefert werden.

Integration mit Microsoft Power Automate

Die Automatisierung wird durch Integrationsmöglichkeiten mit Plattformen wie Zapier.com, IFTTT.com und PowerAutomate erreicht. Der Fokus liegt hierbei auf der Integration mit Power Automate für eine nahtlose Workflow-Erstellung.

Anbieter Integration mit PowerAutomate Vorlagen für Flows
Encodian Connector vorhanden nein
Docparser Connector vorhanden ja
Parserr Connector vorhanden ja
Aquaforest Connector vorhanden ja

Besonders bei Parserr kann man Endpunkte zum Mailempfang einrichten, um Mails mit Anhängen direkt zu integrieren.

Microsoft Lösungen

Microsoft hat das kostenpflichtige Produkt „SharePoint Syntex“ eingeführt, welches auf dem Projekt „Cortex“ basiert. Dieses Tool nutzt KI für die Metadatenextraktion. Nach der Extraktion werden die Informationen in Metadatenspalten der Dokumentenbibliotheken gespeichert. Aktuell bietet dies jedoch keine direkte Anwendung mit Power Automate.

Alternativ bietet Microsoft den Form Recognizer von Azure Cognitive Services. Dieser Dienst ist in Europa verfügbar, z.B. in Frankreich oder U.K., und bietet ein kostenloses Kontingent von 500 Seiten pro Monat.