Сканерлеу және OCR

Қайырлы күн.

Бәлкім, қағаз бетіңізді электронды түрде аудару қажет болған кезде әрқайсыңыздың міндетіңізге тап болған шығарсыз. Әсіресе, оқып жүргендер, құжаттамамен жұмыс істеу, электрондық сөздіктерді қолданып мәтіндерді аудару және т.б. қажет.

Осы мақалада осы процестің кейбір негіздерін бөліскім келеді. Жалпы алғанда, сканерлеу мен мәтіндерді тану өте көп уақытты қажет етеді, өйткені көптеген операцияларды қолмен жасау қажет. Біз не, қалай және неге екенін анықтауға тырысамыз.

Әркім бірден бір нәрсені түсінбейді. Сканерлегеннен кейін (сканердегі барлық парақтарды орналастыру) BMP, JPG, PNG, GIF форматындағы суреттер болады (басқа форматтар болуы мүмкін). Сондықтан бұл суреттің мәтінін алу қажет - бұл процедура тану деп аталады. Осы тәртіпте және төменде ұсынылады.

Мазмұн

  • 1. Сканерлеу және тану үшін не қажет?
  • 2. Мәтінді қарап шығу параметрлері
  • 3. Құжаттың мәтінін тану
    • 3.1 Мәтін
    • 3.2 Суреттер
    • 3.3 Кестелер
    • 3.4 Қажет емес элементтер
  • 4. PDF / DJVU файлдарын тану
  • 5. Жұмыс нәтижелерін тексеру және сақтау қатесі

1. Сканерлеу және тану үшін не қажет?

1) Сканер

Басып шығарылған құжаттарды мәтіндік формаға аудару үшін алдымен сканер қажет, тиісінше, «туған» бағдарламалар мен олармен бірге жүретін жүргізушілер. Олармен құжатты сканерлеп, әрі қарай өңдеу үшін сақтауға болады.

Басқа аналогтарды қолдануға болады, бірақ жиынтықтағы сканермен бірге келген бағдарламалық жасақтама әдетте жылдам жұмыс істейді және қосымша опцияларға ие.

Сканердің қандай түріне байланысты жұмыс жылдамдығы айтарлықтай өзгеруі мүмкін. 10 секундтан кейін парақтан суретті түсіруге болатын сканерлер бар, олар 30 секундта пайда болады. Егер сіз кітапты 200-300 параққа сканерлейтін болсаңыз - менің ойымша, уақыттың айырмашылығы қанша рет болады деп есептеймін?

2) тану бағдарламасы

Біздің мақалада сізге сканерлеуге және ABBYY FineReader-нің кез-келген құжатын тануға арналған ең жақсы бағдарламалардың бірінде жұмыс жасаймын. Өйткені бағдарлама төленеді, сосын бірден басқа сілтеме беремін - оның Cunei Formінің тегін аналогы. Рас, оларды FineReader барлық жағынан ұтып алғандығымен салыстыра алмас едім, бәрін бірдей көруге кеңес беремін.

ABBYY FineReader 11

Ресми сайт: //www.abbyy.ru/

Өзінің ең жақсы бағдарламаларының бірі. Суреттегі мәтінді тануға арналған. Көптеген опциялар мен мүмкіндіктер жасалды. Ол шрифттерді талдай алады, тіпті қолжазба нұсқаларын да қолдана алады (бірақ мен оны өз бетімше сынамағанмен, қолжазбалық нұсқаны білмеймін, егер сізде тамаша каллиграфиялық қолжазба болмаса). Онымен жұмыс туралы қосымша ақпарат төменде талқыланады. Сондай-ақ, мақала 11 нұсқасындағы бағдарламаны қамтиды.

Әдетте, ABBYY FineReader бағдарламасының әртүрлі нұсқалары бір-бірінен мүлдем өзгеше емес. Сіз бір-бірімен оңайырақ әрекет ете аласыз. Негізгі айырмашылықтар бағдарламаның ыңғайлылығы, жылдамдығы және оның мүмкіндіктері болуы мүмкін. Мысалы, бұрынғы нұсқалар PDF құжатын және DJVU-ды ашудан бас тартады ...

3) сканерлеуге арналған құжаттар

Ия, мен осында құжаттарды бөлек бағаннан шығаруды шештім. Көптеген жағдайларда кез-келген оқулықтарды, газеттерді, мақалаларды, журналдарды және т.б. сканерлеңіз сол кітаптар мен талап етілетін әдебиеттер. Мен не істей аламын? Жеке тәжірибемнен сканерлейтін нәрсені айта аламын - желіде болуы мүмкін! Бір кітапты немесе басқа желіде сканерлеген кезде, мен қанша рет уақытты үнемдеймін. Тек мәтінді құжатқа көшіруім керек болды.

Осы қарапайым кеңестен - сіз сканерлегенге дейін біреу оны сканерлеп қойған-жатпағанын және уақытты жұмсаудың қажеті жоқ екенін тексеріңіз.

2. Мәтінді қарап шығу параметрлері

Бұл жерде сканерге, онымен бірге жүрген бағдарламаларға қатысты барлық драйверлер туралы айтпаймын, себебі барлық сканердің үлгілері әртүрлі, бағдарламалық қамтамасыз ету әр жерде әр түрлі, және операцияны қалай жүзеге асыруға болмайтындығын дәлелдейді.

Бірақ барлық сканерлерде жұмысыңыздың жылдамдығына және сапасына айтарлықтай әсер ететін бірдей параметрлер бар. Мұнда олар туралы жай сөйлесемін. Мен тәртіпте тізімін беремін.

1) Сканерлеу сапасы - DPI

Алдымен, 300 DPI-тен төмен емес параметрлерде сканерлеу сапасын орнатыңыз. Мүмкіндігінше, тағы да біраз уақыт жұмсау керек. DPI индикаторы неғұрлым жоғары болса, сіздің суретіңіз анық болады, сондықтан әрі қарай өңдеу жылдам өтеді. Сонымен қатар, сканерлеудің сапасы соғұрлым жоғары болады - кейінірек түзетуге тура келетін кем қателер.

Үздік опция әдетте 300-400 ДПИ ұсынады.

2) хроматизм

Бұл параметр сканерлеу уақытына айтарлықтай әсер етеді (айтпақшы, DPI де әсер етеді, бірақ олар өте күшті және пайдаланушы жоғары мәндерді орнатқанда ғана).

Әдетте үш режим бар:

- қара және ақ (қарапайым мәтін үшін өте қолайлы);

- сұр (үстелдермен және суреттермен жарамды);

- түстер (түсті журналдар, кітаптар, жалпы алғанда, түсі маңызды болған құжаттар үшін).

Әдетте сканерлеу уақыты түс таңдауына байланысты. Өйткені, егер сізде үлкен құжат болса, беттің жалпы алғанда 5-10 секундтан асатын уақыты жақсы уақытқа әкеледі ...

3) Фотосуреттер

Құжатты сканерлеу арқылы ғана емес, сонымен бірге оны суретке түсіру арқылы да алуға болады. Әдетте, бұл жағдайда сізде басқа да мәселелер болады: сурет бұрмалануы, бұлыңғырлық. Осыған байланысты, ол алынған мәтінді әрі қарай өңдеуді және өңдеуді талап етуі мүмкін. Мен бұл бизнес үшін камераларды пайдалануды ұсынбаймын.

Әрбір осындай құжат танылмайтынына назар аудару керек сканерлеу сапасы өте төмен болуы мүмкін ...

3. Құжаттың мәтінін тану

Біз сізді қызықтырған парақтарыңызды сканерлеген деп есептейміз. Көбінесе олар форматтар: tif, bmb, jpg, png. Жалпы, ABBYY FineReader үшін - бұл өте маңызды емес ...

ABBYY FineReader бағдарламасында суретті ашқаннан кейін, бағдарлама, әдетте, машинада аумақтарды таңдап, тани бастайды. Бірақ кейде ол дұрыс емес. Бұл үшін қалаған аймақты таңдауды қолмен қарастырамыз.

Бұл маңызды! Бағдарламадағы құжатты ашқаннан кейін, әркім бірден түсінбейді, бұл құжаттың сол жағында әртүрлі аймақтарды бөлектейтін сол жақта көрсетіледі. «Тану» батырмасын басқаннан кейін оң жақ терезеде бағдарлама сізге аяқталған мәтінді береді. Танудан кейін, Айтпақшы, сол FineReader ішіндегі қателердің мәтінін тексеру ұсынылады.

3.1 Мәтін

Бұл аймақ мәтінді бөлектеу үшін қолданылады. Суреттер мен кестелер оны алып тастау керек. Сирек және ерекше қаріптерді қолмен енгізу керек болады ...

Мәтіндік аумақты таңдау үшін FineReader тақтасының жоғарғы жағындағы тақтаға назар аударыңыз. «T» түймесі бар (төмендегі скриншотты қараңыз, тінтуір көрсеткіші осы түймешікте орналасқан). Оны басыңыз, содан кейін төмендегі суретте мәтіннің орналасқан тік бұрышты аймағын таңдаңыз. Айтпақшы, кейбір жағдайларда сізге 2-3 беттен тұратын мәтін блоктарын, кейде 10-12 бет жасау қажет Мәтінді пішімдеу басқа болуы мүмкін және бір тіктөртбұрышпен бүкіл аумақты таңдамайды.

Кескіндер мәтіндік аумаққа түспеуі керек екенін ескеру керек! Болашақта ол сізге көп уақытты үнемдейді ...

3.2 Суреттер

Суреттер мен сапасы нашар немесе ерекше шрифтпен тану қиын жерлерді бөлектеу үшін қолданылады.

Төмендегі скриншотта тінтуір көрсеткіші «сурет» аймағын таңдау үшін пайдаланылатын түймеде орналасқан. Айтпақшы, беттің кез келген бөлігін осы аймақта таңдауға болады, сонда FineReader оны құжатқа қалыпты сурет ретінде кіргізеді. Яғни Тек «ақымақ» көшіріп алады ...

Әдетте, бұл аймақ нашар сканерленген кестелерді көрсету үшін пайдаланылады, стандартты емес мәтінді және қаріпті, суреттерді өздігінен ерекшелейді.

3.3 Кестелер

Төмендегі скриншот кестені бөлектеу үшін түймешікті көрсетеді. Жалпы, мен оны өте сирек қолданамын. Шын мәнінде, сіз кестеде әр жолды әдеттегідей (шын мәнінде) сызып, бағдарламаның не және қалай екенін көрсетуге тура келеді. Кесте кішкентай болса да, сапасы жағынан жақсы болмаса, осы мақсаттар үшін «сурет» аймағын пайдалануды ұсынамын. Осылайша көп уақытты үнемдей аласыз, содан кейін суреттің негізінде Word бағдарламасында кестені тез жасай аласыз.

3.4 Қажет емес элементтер

Айта кету керек. Кейде мәтінді тану қиындық тудыратын беттегі қажет емес элементтер бар немесе сіз қажетті аумақты таңдауға мүмкіндік бермейсіз. Оларды «өшіргіш» арқылы мүлдем алып тастауға болады.

Ол үшін суретті өңдеу режиміне өтіңіз.

Өшіргіш құралын таңдап, қажет емес аймақты таңдаңыз. Ол жойылады, орнына ақ қағаз парағы болады.

Айтпақшы, бұл мүмкіндікті мүмкіндігінше жиі қолданамын. Сіз таңдаған барлық мәтіндік аумақтарды көріңіз, мәтіннің бір бөлігіне мұқтаж болмаңыз, немесе кез келген қажетсіз нүктелер, бұлыңғырлық, бұрмалаушылықтар - өшіргішпен жойыңыз. Бұл танудың арқасында жылдамырақ болады!

4. PDF / DJVU файлдарын тану

Жалпы алғанда, бұл тану форматы басқалардан өзгеше болмайды - яғни, Сіз онымен онымен бірге жұмыс істей аласыз. Бағдарламаның тым ескі нұсқасы болмауы керек, егер сіз PDF / DJVU файлдарын ашпаған болсаңыз, 11 нұсқасын жаңартыңыз.

Біраз кеңес. Құжатты FineReader-да ашқаннан кейін ол құжатты автоматты түрде тани бастайды. Жиі PDF / DJVU файлдарында, бүкіл құжатта беттің белгілі бір аумағы қажет емес! Осындай аумақты барлық беттерде жою үшін келесі әрекеттерді орындаңыз:

1. Суретті өңдеу бөліміне өтіңіз.

2. «қырқу» параметрін қосыңыз.

3. Барлық беттерде қажет аумақты таңдаңыз.

4. Барлық беттерді қолдануға және кесуге басыңыз.

5. Жұмыс нәтижелерін тексеру және сақтау қатесі

Барлық облыстар таңдалған кезде әлі де қиындықтар туындауы мүмкін, содан кейін мойындаған - оны алып, сақтап қойыңыз ... Онда жоқ!

Біріншіден, құжатты тексеру керек!

Оны қосу үшін танудан кейін оң жақ терезеде «тексеру» түймесі болады, төмендегі скриншотты қараңыз. Оны басқаннан кейін, FineReader бағдарламасы сізге бағдарлама қателері бар және сол немесе басқа таңбаны сенімді түрде анықтай алмайтын аймақтарды автоматты түрде көрсетеді. Сіз тек таңдауға немесе бағдарламаның пікірімен келісесіз немесе өзіңіздің кейіпкеріңізді енгізесіз.

Айтпақшы, шамамен жартысы, бағдарлама сізге дайын сөзді ұсынады - сіз қалаған опцияны таңдау үшін тінтуірді пайдалануыңыз керек.

Екіншіден, тексерілгеннен кейін сіз жұмысыңыздың нәтижесін сақтайтын пішімді таңдап алуыңыз керек.

Мұнда FineReader Сізге толықтай кезек береді: ақпаратты Word-ге бір-біріне аударуға болады және оны ондаған форматтардың бірінде сақтауға болады. Мен тағы бір маңызды аспектіні атап өткім келеді. Сіз таңдаған қандай формада көшірме түрін таңдау маңызды! Ең қызықты нұсқаларды қарастырыңыз ...

Нақты көшірме

Танылған құжатта сіз таңдаған барлық аумақтар бастапқы құжатта дәл сәйкес келеді. Мәтін пішімдеуін жоғалтпау маңызды болған кезде өте ыңғайлы нұсқа. Айтпақшы, қаріптер түпнұсқаға өте ұқсас болады. Осы құжатты Word-ге аударуды ұсынамын, әрі қарай жұмыс істеу үшін.

Өңделетін көшірме

Бұл параметр жақсы, себебі сіз мәтіннің бұрыннан пішімделген нұсқасын аласыз. Яғни Бастапқы құжатта болуы мүмкін «километрдің» шегінісі - сіз кездесесіз. Ақпаратты едәуір редакциялау кезінде пайдалы нұсқа.

Рас, дизайн стилін, қаріптерді, шегіністерді сақтап қалу маңызды ма екенін таңдаудың қажеті жоқ. Кейде тану өте сәтті болмаса, құжатыңыз өзгерген пішімдеуге байланысты «шақтама» болуы мүмкін. Бұл жағдайда дәл көшірмені таңдау ұсынылады.

Кәдімгі мәтін

Беттің бәрінен басқа ғана мәтінге мұқтаж адамдар үшін опция. Суреттер мен кестелерсіз құжаттарға қолайлы.

Бұл құжатты сканерлеу және тану мақаласын аяқтайды. Осы қарапайым кеңестердің көмегімен сіз өзіңіздің мәселелеріңізді шеше аласыз деп үміттенемін ...

Сәттілік тілеймін!