Intro

Das dahinterliegende Business Szenario ist einfach und wiederkehrend. Man erhält als Unternehmen von Partnern, Kunden oder Dienstleistern Dokumente im PDF-Format, die unternehmerische Daten enthalten. Diese will man automatisiert auslesen, in der eigenen IT als strukturierte Daten abspeichern und weiter verarbeiten. Das was früher Sachbearbeiter/innen manuell getan haben, soll nun digitalisiert/automatisiert ablaufen. 🙂

Eine logische Prüfung der empfangenen Daten ist ein Prozess-Schritt, der trotzdem nicht entfallen sollte – dies wird in diesem Artikel jedoch nicht betrachtet.

Der Markt der Anbieter

Folgende Dritt-Anbieter auf dem Markt helfen bei der automatisierbaren Extraktion von textuellen Daten aus Dokumenten, die dann als Metadaten weiter verarbeitet werden können innerhalb der Office 365 Tool-Landschaft.

Anbieter Sitz des Anbieters Features Kostenloses Kontigent pro Monat
Encodian U.K. Text-Extraktion aus PDF Dokumenten 50 Dokumente
Docparser U.S. Text-Extraktion aus PDF Dokumenten 30 Dokumente
Parserr.com U.S. Text-Extraktion aus eMails
Text-Extraktion aus Anlagen von eMails
10 Dokumente
Aquaforest U.K. Text-Extraktion aus PDFs 100 Dokumente

Die Idee dieser Anbieter ist, dass eMails mit Dokumentenanlagen oder nur Dokumente in Form von Dateien zu diesen Anbietern gesendet werden, dort mittels OCR analysiert werden um anschließend strukturierte Daten (Metadaten) zurückgeliefert zu bekommen.

Integrationsmöglichkeiten mit Microsoft PowerAutomate

Automatisierbarkeit bedeutet, dass die oben genannten Dienste für Automatisierungs-Plattformen wie

  • Zapier.com
  • IFTTT.com
  • PowerAutomate

Integrationsmöglichkeiten anbieten um sich Workflows zu konzipieren und umzusetzen. Der Fokus in diesem Artikel liegt auf PowerAutomate. In der folgenden Tabelle ist der derzeitige Stand (Dezember 2020) dokumentiert.

Anbieter Integration mit PowerAutomate Vorlagen für Flows vorhanden
Encodian Connector vorhanden nein
Docparser Connector vorhanden ja
Parserr Connector vorhanden ja
Aquaforest Connector vorhanden ja

Die Besonderheit bei Parserr ist, dass tatsächlich Endpunkte zum Mailempfang angelegt und somit Mails mit Anhängen direkt dorthin gesendet werden können.

Was bietet Microsoft dafür?

Microsoft hat im 4. Quartal ein kostenpflichtiges Zusatz-Produkt namens “SharePoint Syntex” auf den Markt gebracht, was aus dem Project “Cortex”  entstanden ist.

Dieses Produkt bietet eine KI-gestützte Metadatenextraktion auf Basis von Beispiel-Daten. Die Metadaten werden nach dem Auslesen in die Metadatenspalten von Dokumentenbibliotheken geschrieben. Eine Anwendungmöglichkeit im Rahmen von PowerAutomate sehe ich hier stand heute nicht.

Ein andere Möglichkeit von Microsoft ist der sogenannte Form Recognizer von den Azure Cognitive Services – also ein SaaS Angebot von Microsoft wie die oben genannten Anbieter. Auch hier werden die Daten zu Microsoft gesendet – aktuell ist der Dienst auch in Europa z.B. in Frankreich oder in U.K. mit einer kostenlosen Seitenanzahl von 500 verfügbar.