You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Wenn ich eine neue PDF-Datei hochlade, die nicht "digitally born" ist, dann wird Texterkennung automatisch ausgeführt. Der Text die auf den PDF-Seiten erkannt wird, wird dabei in der PDF-Datei digital hinterlegt, damit man den Text suchen und selektieren kann. Im OCR-Service werden gleichzeitig auch manche Bilder in den PDFs neu skaliert oder neu zugeschnitten. Dabei ändert sich auch die Dateigrösse der PDF-Datei zum Teil signifikant. In der Datenbank (Tabelle "file", Spalte "size") bleibt aber die Dateigrösse der original hochgeladene Datei behalten. So hat die Datei, die der Benutzer herunterladen kann, zum Teil eine ganz andere Grösse, als die Zahl die auf der Benutzeroberfläche angezeigt wird.
AC
Dateigrösse wird nach erfolgreichem Ausführen von Texterkennung (OCR) neu ermittelt, und in der Datenbank aktualisiert.
Beispiel
Für die drei Asset IDs 8340 bis 8342 wurde genau das gleiche Legal Doc hochgeladen. In der Datenbank ist für alle drei PDFs die gleiche Dateigrösse (2713783 bytes) hinterlegt.
Wir sehen aber auch dass bei einer Datei (a8341_8347_LDoc.pdf) die Texterkennung erfolgreich war, während bei den zwei anderen PDFs es einen Fehler gab bei der Texterkennung.
Wenn wir jetzt im S3 Bucket schauen, dann sehen wir dass die Dateigrösse noch korrekt ist für die zwei Dateien mit fehlgeschlagener Texterkennung, aber dass die Datei mit erfolgreicher Texterkennung jetzt eigentlich eine neue Dateigrösse hat:
The text was updated successfully, but these errors were encountered:
Wenn ich eine neue PDF-Datei hochlade, die nicht "digitally born" ist, dann wird Texterkennung automatisch ausgeführt. Der Text die auf den PDF-Seiten erkannt wird, wird dabei in der PDF-Datei digital hinterlegt, damit man den Text suchen und selektieren kann. Im OCR-Service werden gleichzeitig auch manche Bilder in den PDFs neu skaliert oder neu zugeschnitten. Dabei ändert sich auch die Dateigrösse der PDF-Datei zum Teil signifikant. In der Datenbank (Tabelle "file", Spalte "size") bleibt aber die Dateigrösse der original hochgeladene Datei behalten. So hat die Datei, die der Benutzer herunterladen kann, zum Teil eine ganz andere Grösse, als die Zahl die auf der Benutzeroberfläche angezeigt wird.
AC
Beispiel
![Image](https://private-user-images.githubusercontent.com/144008419/407317664-98fd7a3f-3b97-42de-ba63-260201c9a7d3.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3Mzk0NDUzMDMsIm5iZiI6MTczOTQ0NTAwMywicGF0aCI6Ii8xNDQwMDg0MTkvNDA3MzE3NjY0LTk4ZmQ3YTNmLTNiOTctNDJkZS1iYTYzLTI2MDIwMWM5YTdkMy5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjUwMjEzJTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI1MDIxM1QxMTEwMDNaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT0wMGY1MjAzOThjYjI2NDFlMmFjN2MyNjgyYjJkYzRjMjg0ODFkYTUzMjY3M2FkZWVmMWQwZjY0ZmY0ODJhNjRlJlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCJ9.4MKvZe44_GA-vexyJaaCuJg3sL_YCDe1lNajV-F3cfM)
Für die drei Asset IDs 8340 bis 8342 wurde genau das gleiche Legal Doc hochgeladen. In der Datenbank ist für alle drei PDFs die gleiche Dateigrösse (2713783 bytes) hinterlegt.
Wir sehen aber auch dass bei einer Datei (a8341_8347_LDoc.pdf) die Texterkennung erfolgreich war, während bei den zwei anderen PDFs es einen Fehler gab bei der Texterkennung.
Wenn wir jetzt im S3 Bucket schauen, dann sehen wir dass die Dateigrösse noch korrekt ist für die zwei Dateien mit fehlgeschlagener Texterkennung, aber dass die Datei mit erfolgreicher Texterkennung jetzt eigentlich eine neue Dateigrösse hat:
![Image](https://private-user-images.githubusercontent.com/144008419/407318360-5ac79a04-0e06-4e07-845d-f01feb77e0db.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3Mzk0NDUzMDMsIm5iZiI6MTczOTQ0NTAwMywicGF0aCI6Ii8xNDQwMDg0MTkvNDA3MzE4MzYwLTVhYzc5YTA0LTBlMDYtNGUwNy04NDVkLWYwMWZlYjc3ZTBkYi5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjUwMjEzJTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI1MDIxM1QxMTEwMDNaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT03OTY4NGM3OWU4YzA4ZTUyZDkyMTBhMGI4YWVhMjQxOTZmMDhlZGY5MjQwZmRkMDA1YjlmMDM5YWMyMTFiYTUyJlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCJ9.-yu5LAmQGZVbnLGDw3k2pxk1uIGZgiYVcKsQEltETDM)
The text was updated successfully, but these errors were encountered: