Nevíte-li si rady s jakýmkoliv matematickým problémem, toto místo je pro vás jako dělané.
Nástěnka
❗22. 8. 2021 (L) Přecházíme zpět na doménu forum.matweb.cz!
❗04.11.2016 (Jel.) Čtete, prosím, před vložení dotazu, děkuji!
❗23.10.2013 (Jel.) Zkuste před zadáním dotazu použít některý z online-nástrojů, konzultovat použití můžete v sekci CAS.
Nejste přihlášen(a). Přihlásit
Zdravím,
předně - wow, pěkná funkce - jak jsem v nadpise nechal jen OCR, že to doplním později, tak na mě začala stránka hnedka pořvávat :) Skvělá práce (ať už to má na svědomí kdokoli), snad ubude těch Claps-Lock-4-Ever uživatelů :)
a nyní k mému dotazu:
Tak se mi na počítač dostali nějaké texty - jsou scanované z papírových předloh (tištěných) a jednotlivé scany (celkem slušné kvality) jsou pospojované do souboru pdf. Jelikož se jedná o hromadu obrázků, špatně se v tom vyhledává (třeba na funkci Ctrl+F mohu rovnou zapomenout) atp., proto bych rád převedl obrázky na text (lépe řečeno - vyextrahoval text z obrázků). Máte s tím někdo zkušenosti?
Trochu jsem nad tím bádal a narazil jsem na problém. Existují programy, které extrakci zvládnou, ale mají "ale".. Například:
ABBYY FineReader (10, ..)
celkem pěkný prográmek; v shareware verzi je na zkoušku cca 50 stránek
+ dokáže celkem spolehlivě rozpoznat (dlouhé) texty
+ podporuje češtinu /rozuměj - ne jen v menu, tam je mi to jedno; dokáže rozpoznávat české texty/
- nerozpozná většinu matematických symbolů
pak jsem narazil na:
InftyReader
software vyvíjený někým (tuším) z Japonska; určen k rozpoznávání matem. textů
+ dokáže rozpoznávat matematické symboly
- nedokáže pracovat s češtinou /v nabídce je pouze angličtina a japonština/
takže stále bez výsledku.. Pak jsem také narazil na projekt dml-cz /česká digitální matematická knihovna/ - v nějaké diplomové práci zabývající se mj. dml-cz a digitalizací - bylo popsáno, že při digitalizaci používali jakýsi prográmek kombinující oba dva výše uvedené (plus další podpůrné skripty.. atd). Žel tento software není přístupný /nikde jsem na něj alespoň nenarazil/. Jediná má naděje spočívá v tom, že projekt dml-cz se rozběhl někdy v roce 2006, tedy před téměř pěti lety, a od té doby se mohl vyskytnout nástroj řešící mé trable..
Takže - nevíte, jak na to? Jak z nascanovaných textů /nemám přístup k verzi, ze které se to tisklo/ text vyextrahovat?
Díky, Doxxik
Offline