OCR nur dann, wenn es wirklich sein muss
Bewerbungsunterlagen sind ja oft ein Sammelsurium an unterschiedlichsten Dokumenttypen (Lebenslauf, Zeugnis, Bewerbungsanschreiben etc.) und Dokumentenformaten. Das reicht von Microsoft Word und Open Office über PDF bis hin zu eingescannten Dokumenten (PNG, JPG, GIF etc., auch eingebettet in andere Dokumente).

Insofern für den Bewerbungsprozess nur die Analyse des Lebenslaufs von Bedeutung ist, also unser HRmerger nicht zum Einsatz kommt, und dieser innerhalb der Bewerbungsmappe maschinenlesbar vorliegt, also kein gescanntes Dokument ist, wie andere Dokumente in der Mappe, ist der CVlizer in der Lage, diesen Lebenslauf auf Basis verschiedenster Kriterien zu erkennen und weiterzuverarbeiten.
Es ist also nicht notwendig, zunächst eine OCR-Konvertierung aller Dokumente der Bewerbungsmappe anzustoßen, um dann erst in einem nächsten Schritt den Lebenslauf herauszufiltern und dem eigentlichen Parsing zuzuführen. Das sorgt für erhebliche Zeitersparnis, da so deutlich weniger Dokumente im rechenintensiven OCR-Prozess (OCR = Optical Character Recognition, also optische Zeichenerkennung) in maschinenlesbaren Text umgewandelt werden müssen.
Die intelligente „Spürnase“ des CVlizers spart also wertvolle Zeit im Extraktionsprozess und am Ende auch Ressourcen, die an anderer Stelle sinnvoller verwendet werden können – zum Beispiel bei der semantischen Analyse, dem eigentlichen Herzstück unserer Applikation(en).