Intro
Das dahinterliegende Business Szenario ist einfach und wiederkehrend. Man erhält als Unternehmen von Partnern, Kunden oder Dienstleistern Dokumente im PDF-Format, die unternehmerische Daten enthalten. Diese will man automatisiert auslesen, in der eigenen IT als strukturierte Daten abspeichern und weiter verarbeiten. Das was früher Sachbearbeiter/innen manuell getan haben, soll nun digitalisiert/automatisiert ablaufen. :-)
Eine logische Prüfung der empfangenen Daten ist ein Prozess-Schritt, der trotzdem nicht entfallen sollte – dies wird in diesem Artikel jedoch nicht betrachtet.
Der Markt der Anbieter
Folgende Dritt-Anbieter auf dem Markt helfen bei der automatisierbaren Extraktion von textuellen Daten aus Dokumenten, die dann als Metadaten weiter verarbeitet werden können innerhalb der Office 365 Tool-Landschaft.
Anbieter | Sitz des Anbieters | Features | Kostenloses Kontigent pro Monat |
Encodian | U.K. | Text-Extraktion aus PDF Dokumenten | 50 Dokumente |
Docparser | U.S. | Text-Extraktion aus PDF Dokumenten | 30 Dokumente |
Parserr.com | U.S. | Text-Extraktion aus eMails Text-Extraktion aus Anlagen von eMails |
10 Dokumente |
Aquaforest | U.K. | Text-Extraktion aus PDFs | 100 Dokumente |
Die Idee dieser Anbieter ist, dass eMails mit Dokumentenanlagen oder nur Dokumente in Form von Dateien zu diesen Anbietern gesendet werden, dort mittels OCR analysiert werden um anschließend strukturierte Daten (Metadaten) zurückgeliefert zu bekommen.
Integrationsmöglichkeiten mit Microsoft PowerAutomate
Automatisierbarkeit bedeutet, dass die oben genannten Dienste für Automatisierungs-Plattformen wie
- Zapier.com
- IFTTT.com
- PowerAutomate
Integrationsmöglichkeiten anbieten um sich Workflows zu konzipieren und umzusetzen. Der Fokus in diesem Artikel liegt auf PowerAutomate. In der folgenden Tabelle ist der derzeitige Stand (Dezember 2020) dokumentiert.
Anbieter | Integration mit PowerAutomate | Vorlagen für Flows vorhanden |
Encodian | Connector vorhanden | nein |
Docparser | Connector vorhanden | ja |
Parserr | Connector vorhanden | ja |
Aquaforest | Connector vorhanden | ja |
Die Besonderheit bei Parserr ist, dass tatsächlich Endpunkte zum Mailempfang angelegt und somit Mails mit Anhängen direkt dorthin gesendet werden können.
Was bietet Microsoft dafür?
Microsoft hat im 4. Quartal ein kostenpflichtiges Zusatz-Produkt namens „SharePoint Syntex“ auf den Markt gebracht, was aus dem Project „Cortex“ entstanden ist.
Dieses Produkt bietet eine KI-gestützte Metadatenextraktion auf Basis von Beispiel-Daten. Die Metadaten werden nach dem Auslesen in die Metadatenspalten von Dokumentenbibliotheken geschrieben. Eine Anwendungmöglichkeit im Rahmen von PowerAutomate sehe ich hier stand heute nicht.
Ein andere Möglichkeit von Microsoft ist der sogenannte Form Recognizer von den Azure Cognitive Services – also ein SaaS Angebot von Microsoft wie die oben genannten Anbieter. Auch hier werden die Daten zu Microsoft gesendet – aktuell ist der Dienst auch in Europa z.B. in Frankreich oder in U.K. mit einer kostenlosen Seitenanzahl von 500 verfügbar.