Мәтінді тану. Тегін бағдарлама - аналогтық FineReader

Ерте ме, кеш пе, офистік бағдарламалармен жиі жұмыс жасайтындардың бәрі әдеттегі тапсырманы орындайды - мәтінді кітаптан, журналдан, газеттен, жай парақтардан сканерлеп, содан кейін бұл суреттерді мәтіндік форматқа, мысалы, Word құжатына аударыңыз.

Бұл үшін сканер мен мәтінді тану үшін арнайы бағдарлама қажет. Бұл мақалада FineReader тегін аналогы талқыланады -Синтейшелік (FineReader-тан тану туралы - осы мақаланы қараңыз).

Бастайық ...

Мазмұн

  • 1. CuneiForm бағдарламасының ерекшеліктері, ерекшеліктері
  • 2. Мәтін танудың мысалы
  • 3. Пакеттік мәтінді тану
  • 4. Қорытындылар

1. CuneiForm бағдарламасының ерекшеліктері, ерекшеліктері

Синтейшелік

Сіз әзірлеуші ​​сайтынан жүктеп алуға болады: //cognitiveforms.com/

Ашық мәтінді тану бағдарламалық құралы. Бұған қоса, ол барлық Windows нұсқаларында жұмыс істейді: XP, Vista, 7, 8, ол қуантады. Сонымен қатар, бағдарламаның толық орыс тіліне аудармасын қосыңыз!

Артықшылықтары:

- әлемнің ең танымал 20 тілінде мәтінді тану (бұл нөмірге ағылшын және орыс тілдері кіреді);

әртүрлі баспа қаріптеріне үлкен қолдау;

- сөздікті танылған мәтінді тексеріңіз;

- жұмыс нәтижелерін бірнеше тәсілмен сақтау мүмкіндігі;

- құжаттың құрылымын сақтау;

- Тамаша қолдау және тану кестелері.

Кемшіліктері:

- Тым үлкен құжаттар мен файлдарды қолдамайды (400-ден астам нүкте / дюйм);

- сканерлердің кейбір түрлерін тікелей қолдамайды (жақсы, бұл қорқынышты емес, сканер драйверлерімен арнайы сканер кіреді);

- дизайн жарқырайды (бірақ бағдарлама мәселені толығымен шешсе, оған кім қажет).

2. Мәтін танудың мысалы

Біз Сізге тану үшін қажет суреттерді (сканерленген немесе кітапты интернетте pdf / djvu форматында қотарып алып, қажетті суреттерді алғансыз деп ойлайсыз), мұны қалай істеуге болады - осы мақаланы қараңыз).

1) CuineForm бағдарламасында қажетті файлды ашыңыз (файл / ашық немесе «Cntrl + O»).

2) Тануды бастау үшін алдымен әртүрлі бағыттарды таңдау керек: мәтін, суреттер, кестелер және т.б. Cuneiform бағдарламасында бұл қолмен ғана емес, сонымен қатар автоматты түрде! Мұны істеу үшін терезенің жоғарғы бөлігінде «түзету» түймесін басыңыз.

3) 10-15 секундтан кейін. бағдарлама түрлі түстермен барлық аумақтарды автоматты түрде бөлектейді. Мысалы, мәтін аумағы көгілдір түсте болады. Айтпақшы, ол барлық аудандарды дұрыс және тезірек атап өтті. Шынымды айтсам, оның мұндай тез және дұрыс жауап күтпедім ...

4) Автоматты түрде түзетуге сенім артпайтындар үшін нұсқаулықты пайдалана аласыз. Ол үшін таңдай аласыз: мәтін, кесте, сурет, құралдар тақтасы (төмендегі суретті қараңыз). Бастапқы суретті жылжытып, азайта / азайтады, шеттерін кесіңіз. Жалпы, жақсы жиын.

5) Барлық облыстар белгіленген соң, сіз жалғастыра аласыз тану. Мұны істеу үшін, төмендегі суреттегідей, сол аттың батырмасын басыңыз.

6) Сөзбе-сөз 10-20 секундта. Microsoft Word бағдарламасында танылған мәтінмен құжатты көресіз. Қандай қызықты, бұл мысалдағы мәтінде, әрине, қателіктер болғанымен, олардың аз ғана бөлігі бар! Әсіресе, түпнұсқа материалдың қалай жазылғанын ескере отырып - сурет.

Жылдамдық пен сапа FineReader-мен салыстырады!

3. Пакеттік мәтінді тану

Бағдарламаның бұл функциясы бір суретті танымаған кезде, бірақ бірден бірнеше рет қажет болғанда ыңғайлы болады. Партияны тануды бастауға арналған сілтеме әдетте іске қосу мәзірінде жасырылады.

1) Бағдарламаны ашқаннан кейін сізге жаңа буманы жасау немесе бұрын сақталған файлды ашу қажет. Біздің мысалда - жаңасын жасаңыз.

2) Келесі қадамда біз оны 6 айдан кейін сақтап қойғанымызды еске түсіреміз.

3) Содан кейін құжаттың тілін (орысша-ағылшынша) таңдаңыз, сканерленген материалдарыңыздағы суреттер мен кестелердің бар-жоғын көрсетіңіз.

4) Енді тану файлдары орналасқан қалтаны көрсету керек. Айтпақшы, бұл бағдарламаның өзін өзі тани алатын және жобаға қосатын барлық суреттер мен басқа графикалық файлдарды табады. Сондай-ақ қосымша алып тастау қажет.

5) Келесі қадам маңызды емес - танудан кейін бастапқы файлдармен не істеу керектігін таңдаңыз. Мен «ештеңе жаса» құсбелгісін таңдауға кеңес беремін.

6) Танылған құжат сақталатын форматты таңдау ғана қалады. Бірнеше нұсқалар бар:

- Rtf - Word құжатынан барлық кең таралған кеңселер ашылады (тегін, соның ішінде бағдарламаларға сілтеме);

- txt - мәтін пішімі, онда тек мәтінді, суреттерді және кестелерді сақтауға болады;

- htm - Гипертекстің беті, егер сіз сайтқа арналған файлдарды сканерлеп, тансаңыз ыңғайлы. Оның үлгісінде таңдап алыңыз.

7) «Аяқтау» түймесін басқаннан кейін, сіздің жобаңызды өңдеу басталады.

8) Бағдарлама өте тез жұмыс істейді. Танудан кейін htm файлдарымен қойындыларды көресіз. Егер осындай файлды бассаңыз, нәтижелерді көре алатын жерде браузер басталады. Айтпақшы, бума одан әрі жұмыс істеу үшін сақталуы мүмкін.

9) Көріп тұрғаныңыздай нәтижелері жұмыс өте әсерлі. Бағдарлама суретті оңай таниды және оның астында мәтінді оңай таниды. Бағдарлама тегін болғанымен, әдетте супер!

4. Қорытындылар

Егер жиі құжаттарды сканерлеп, танымаса, онда FineReader сатып алу мағынасы болмайды. CuneiForm көптеген тапсырмаларды оңай өңдейді.

Екінші жағынан, ол да кемшіліктері бар.

Алдымен нәтижені өңдеу және тексеру үшін тым аз құралдар бар. Екіншіден, сіз көптеген суреттерді тануға тура келсе, онда FineReader-де жобаға қосылған барлық нәрсені оң жақ бағанда дереу көре аласыз: қажетсіз тезірек жоюға, түзетулер жасауға және т.б. Үшіншіден, CuneiForm мүлдем нашар құжаттарда танудан айырылады: Сізге құжатты ақылға келтіру керек - қателерді түзетіп, тыныс белгілерін, тырнақшаларды және т.б. қойыңыз.

Мұның бәрі. Сіз басқа тегін мәтінді тану бағдарламалық жасақтамасын білесіз бе?