Dokumenten Erfassung (Capture)

Aus IT-Services Dipl.-Ing. Andreas Gross
Wechseln zu: Navigation, Suche

Die Kategorie Capture beinhaltet Funktionalität und Komponenten zur Erstellung, Erfassung, Aufbereitung und Verarbeitung von analogen und elektronischen Informationen. Es sind mehrere Stufen und Techniken unterschieden, von der einfachen Erfassung der Information bis zur komplexen Aufbereitung durch eine automatische Klassifikation. Die Capture-Komponenten werden auch häufig als „Input“-Komponenten zusammengefasst und als "Input-Management" bezeichnet.

ECM Capture.jpg

Manuell erzeugte und gescannte Informationen

Bei der manuellen Erfassung können alle Formen von Informationen vorkommen, von Papierdokumenten, elektronischen Office-Dokumenten, E-Mails, Vordrucken, Multimedia-Objekten, digitalisierter Sprache und Video bis zum Mikrofilm. Die Erfassung von papiergebundenen Dokumenten und Filmaufnahmen bezeichnet man als Scannen.

Maschinell erzeugte und automatisch erfasste Informationen

Bei der teilautomatischen oder automatischen Erfassung können Electronic Data Interchange (EDI)- oder Extensible Markup Language (XML)-Dokumente, kaufmännische und Enterprise Resource Planning (ERP)-Anwendungen oder bestehende Fachanwendungssysteme die Quelle für die Erfassung sein. Die automatische Übernahme von Daten erfolgt in der Regel im sogenannten Computer Output on Laserdisk (COLD)-Verfahren.

Techniken zur Be- und Verarbeitung erfasster Informationen

Zur Verarbeitung von gescannten Faksimiles (Bildverarbeitung) werden verschiedene Erkennungstechniken (Recognition, Mustererkennung) eingesetzt. Zu Ihnen gehören:


  • Texterkennung (OCR Optical Charakter Recognition). Hierbei werden die Bildinformationen in maschinenlesbare Zeichen umgesetzt. OCR wird für Maschinenschrift eingesetzt.
  • HCR (Handprint Charakter Recognition). Die Erkennung von Handschriften ist eine Weiterentwicklung von OCR, die jedoch bei Fließtexten immer noch nicht zufriedenstellende Ergebnisse liefert. Beim Auslesen von definierten Feldinhalten ist die Methode doch bereits sehr sicher.
  • ICR (Intelligent Charakter Recognition). ICR ist eine Weiterentwicklung von OCR und HCR, die die Qualität der ausgelesenen Ergebnisse durch Vergleiche, logische Zusammenhänge, Abgleich mit Referenzlisten oder Prüftabellen verbessert.
  • Optical Mark Recognition (OMR). OMR, z.B. für Strichcode, liest mit hoher Sicherheit spezielle Markierungen in vordefinierten Feldern aus und hat sich bei Fragenbogenaktionen und anderen Vordrucken bewährt.
  • Barcode. Aufgebrachte Barcodes beim Versenden von Vordrucken können beim Einlesen der Rückläufer automatisiert erkannt und zugeordnet werden.


Bildbearbeitung

Bildbearbeitungstechniken von Document Imaging dienen nicht nur der Anzeige von gescannten Bildern (Faksimiles), sondern ermöglichen auch die Verbesserung der Lesbarkeit für die Erfassung. Funktionen wie „Despeckling“, das Entfernen von isolierten Bildpunkten oder das „Adjustment“, das Geraderücken von schief eingezogenen Vorlagen, verbessern die Ergebnisse der Erkennung. Document-Imaging-Funktionen werden im Erfassungsprozess nach dem Scannen oder Empfang von digitalen Faxübermittlungen bei der Qualitätskontrolle eingesetzt.

Formularverarbeitung

Bei der Erfassung von Formularen werden heute noch zwei Gruppen von Techniken unterschieden, obwohl der Informationsinhalt und der Charakter der Dokumente gleich sein kann:

  • Forms Processing (Vordruckverarbeitung). Das „Forms Processing“ bezeichnet die Erfassung von industriell oder individuell gedruckten Vordrucken mittels Scannen. Hierbei kommen anschließend häufig Erkennungstechniken zum Einsatz, da gut gestaltete Vordrucke eine weitgehend automatische Verarbeitung ermöglichen.
  • E-Forms / Web-Forms (Verarbeitung elektronischer Formulare). Bei der Erfassung elektronischer Formulare ist eine automatische Verarbeitung möglich, wenn Layout, Struktur, Logik und Inhalte dem Erfassungssystem bekannt sind.

COLD/ERM

COLD/ERM sind Verfahren zur automatisierten Verarbeitung von strukturierten Eingangsdateien. Der Begriff Computer Output on Laserdisk (COLD) steht für Computer Output on LaserDisk und hat sich gehalten, obwohl das Medium LaserDisk seit Jahren nicht mehr am Markt ist. Das Akronym ERM steht für Enterprise Report Management. In beiden Fällen geht es darum, angelieferte Ausgabedateien auf Basis vorhandener Strukturinformationen so aufzubereiten, dass sie unabhängig vom erzeugenden System indiziert und an eine Speicherkomponente wie eine dynamische Ablage (Store) oder ein Archiv (Preserve) übergeben werden können. Die „Aggregation“ stellt einen Kombinationsprozess von Dateneingaben verschiedener Erstellungs-, Erfassungs- und zuliefernden Anwendungen dar. Zweck ist die Zusammenführung und Vereinheitlichung von Informationen aus unterschiedlichen Quellen, um sie strukturiert und einheitlich formatiert an die Speicher- und Bearbeitungssysteme zu übergeben.

Komponenten zur inhaltlichen Erschließung erfasster Informationen

Für die Weiterleitung und inhaltliche Erschließung kommen in den Systemen weitere Indizierungs-, Routing- und Klassifikations-Komponenten hinzu, die die erfassten und digital vorliegenden Informationen aufbereiten und um beschreibende Merkmale ergänzen. Hierzu gehören:

  • Indexing (manuelle Indizierung). Anders als im Deutschen beschränkt sich im Angloamerikanischen der Begriff Indexing auf die manuelle Vergabe von Indexattributen, die in der Datenbank einer „Manage“-Komponente für Verwaltung und Zugriff auf die Informationen benutzt wird. Im Deutschen werden hier auch Begriffe wie „Indizieren“, „Attributieren“ oder „Verschlagworten“ benutzt.
  • Input-Designs (Eigenschaften beschreibende Profile, Erfassungsmasken). Sowohl die automatische als auch die manuelle Attributierung kann durch hinterlegte Profile erleichtert und verbessert werden. Solche Profile können z. B. Dokumentenklassen beschreiben, die die Anzahl der möglichen Indexwerte beschränken oder bestimmte Kriterien automatisch vergeben. Input Designs schließt auch die Eingabemasken und deren Logik bei der manuellen Indizierung ein.
  • Categorization (automatische Klassifikation oder Kategorisierung). Auf Basis der in den elektronischen Informationsobjekten, seien es per OCR gewandelte Faksimiles, Office-Dateien oder Ausgabedateien, enthaltenen Informationen können Programme zur automatischen Klassifikation selbstständig Index-, Zuordnungs- und Weiterleitungsdaten extrahieren. Solche Systeme können auf Basis vordefinierter Kriterien oder selbstlernend Informationen auswerten.

Ziel aller „Capture“-Komponenten ist, die erfassten Informationen zur Weiterbearbeitung oder Archivierung den „Manage“-Komponenten bereitzustellen.

Dieser Artikel steht unter der GNU-Lizenz für freie Dokumentation basiert auf dem Artikel ECM-Komponenten aus der freien Enzyklopädie Wikipedia und in der Wikipedia ist eine Liste der Autoren verfügbar.