Блогтың барлық оқырмандарына сәлем!
Меніңше компьютерде жиі жұмыс істейтіндер (ойнамайды, бірақ ол жұмыс істейді) мәтінді танумен айналысады деп ойлаймын. Мысалы, сіз кітаптан үзінділерді сканерлеп, енді бұл бөлікті құжыңызға қоюыңыз керек. Бірақ сканерленген құжат - бұл сурет және бізге мәтін қажет - бұған біз суреттерді мәтіннен тану үшін арнайы бағдарламалар мен онлайн қызметтер қажет.
Тану бағдарламалары туралы, мен бұрынғы жазбаларда жаздым:
- FineReader-те мәтінді және тануды тану (ақылы бағдарлама);
- ұқсас FineReader-CuneiForm-те жұмыс істеу (тегін бағдарлама).
Сол мақалада мәтінді тану үшін онлайн қызметтерге көңіл бөлгім келеді. Өйткені 1-2 суретте мәтінді жылдам алу керек болса, әртүрлі бағдарламаларды орнатумен алаңдауға болмайды ...
Бұл маңызды! Тану сапасы (қателер саны, оқуға қабілеттілігі және т.б.) бастапқы сурет сапасына өте көп байланысты. Сондықтан, сканерлеу кезінде (суретке түсіру және т.б.), мүмкіндігінше жоғары сапаны таңдаңыз. Көптеген жағдайларда 300-400 нүкте сапасы жеткілікті болады (dpi - сурет сапасын сипаттайтын параметр, барлық сканерлердің параметрлерінде бұл параметр әдетте анықталады).
Онлайндық қызметтер
Қызмет көрсету жұмысын көрсету үшін мен мақалалардың бірінің скриншоты жасадым. Бұл скриншот сипаттама төменде көрсетілген барлық қызметтерге жүктеледі.
1) //www.ocrconvert.com/
Бұл қызметтің қарапайымдылығына байланысты маған ұнайды. Сайт сайт ағылшын болса да, ол орыс тілімен жақсы жұмыс істейді. Сізге тіркелу қажет емес. Тануды бастау үшін 3 қадамды орындау керек:
- суретіңізді жүктеңіз;
- суреттегі мәтіннің тілін таңдау;
- Бастауды тану батырмасын басыңыз.
Пішімді қолдау: PDF, GIF, BMP, JPEG.
Нәтиже суретте төменде көрсетілген. Айта кету керек, мәтін жақсы танымал. Сонымен қатар, өте тез - мен 5-10 секунд күтіп тұрдым.
2) //www.i2ocr.com/
Бұл қызмет жоғарыда көрсетілгендей жұмыс істейді. Мұнда сіз файлды қотарып, тану тілін таңдап, үзінді мәтіндік батырманы басыңыз. Қызмет өте жылдам жұмыс істейді: 5-6 секунд. бір бет.
Қолдау көрсетілетін пішімдер: TIF, JPEG, PNG, BMP, GIF, PBM, PGM, PPM.
Бұл онлайн сервистің нәтижесі әлдеқайда ыңғайлы: бірден екі терезені көресіз - біріншісінде тану нәтижесі, екіншісінде - бастапқы сурет. Сондықтан редакциялау барысында түзету жасауға оңай. Қызметке тіркелу, сонымен қатар, қажет емес.
3) //www.newocr.com/
Бұл қызмет бірнеше тәсілмен бірегей. Біріншіден, DJVU жаңа форматын қолдайды (айтпақшы, JPEG, PNG, GIF, BMP, TIFF, PDF, DjVu форматтарының толық тізімі). Екіншіден, суреттегі мәтіндік аумақтарды таңдауды қолдайды. Бұл суретте тек мәтіндік аумақтар ғана емес, сондай-ақ сізге қажет емес графикалық элементтер болған кезде өте пайдалы.
Тану сапасы орташадан жоғары, тіркелудің қажеті жоқ.
4) //www.free-ocr.com/
Тану үшін өте қарапайым қызмет: суретті қотарып, тілді көрсетіңіз, сценарийге енгізіңіз (бұған сіз мұны қажет ететін осы мақалада жалғыз қызмет) және кескінді мәтінге аудару үшін түймесін басыңыз. Шындығында барлығы!
Қолдау көрсетілетін пішімдер: PDF, JPG, GIF, TIFF, BMP.
Тану нәтижесі орташа. Қателер бар, бірақ көп емес. Алайда түпнұсқалық скриншоттың сапасы жоғарырақ болса, кем болмайтын қателер аз болады.
PS
Бүгінгі күннің бәрі. Егер сіз мәтінді тану үшін қызықты қызметтерді білсеңіз - түсініктемелерде бөлісіңіз, мен ризамын. Бір шарт: тіркелудің қажеті жоқ және қызмет тегін болғаны жөн.
Құрметпен!