PDF форматындағы мәтінді тану онлайн.


Кәдімгі көшіру арқылы PDF файлынан мәтінді шығару әрдайым мүмкін емес. Мұндай құжаттардың беттеріне көбінесе олардың қағаз нұсқаларының сканерленген мазмұны жатады. Мұндай файлдарды толықтай өңделетін мәтіндік деректерге айналдыру үшін Оптикалық таңбаларды тану (OCR) функциясы бар арнайы бағдарламалар қолданылады.

Мұндай шешімдерді іске асыру өте қиын және, демек, көп ақша жұмсайды. PDF-мен мәтінді үнемі тану қажет болса, тиісті бағдарламаны сатып алу ұсынылады. Сирек жағдайларда, қол жетімді онлайн қызметтерінің біреуін ұқсас функциялармен пайдалану логикалық болар еді.

PDF-тан мәтінді қалай тануға болады

Әрине, OCR онлайн қызметтері жиынтығы толық жұмыс үстелі шешімдерімен салыстырғанда шектелген. Бірақ мұндай ресурстармен тегін немесе номиналды ақы төлеуге болады. Ең бастысы, тиісті веб-қосымшалар өздерінің негізгі тапсырмаларын, атап айтқанда мәтінді тануды шешеді.

1-әдіс: ABBYY FineReader Online

Қызметті дамыту компаниясы оптикалық құжаттарды тану саласындағы көшбасшылардың бірі болып табылады. Windows және Mac үшін ABBYY FineReader - PDF-ні мәтінге айналдыру және онымен жұмыс істеу үшін күшті шешім.

Бағдарламаның веб-контексті, әрине, функционалдық жағынан кем. Дегенмен, сервис сканерден және фотосуреттерден 190-дан астам тілде мәтінді тани алады. PDF файлдарын Word, Excel, және т.б. құжаттарға түрлендіруін қолдайды.

ABBYY FineReader Online онлайн қызметі

  1. Құралмен жұмыс істеуді бастамас бұрын, сайтта тіркелгі жасаңыз немесе Facebook, Google немесе Microsoft тіркелгісін пайдаланып кіріңіз.

    Кіру терезесіне өту үшін түймесін басыңыз. «Кіру» жоғарғы мәзір жолағында.
  2. Жүйеге кіргеннен кейін FineReader-ге қажетті батырманы пайдаланып қажетті PDF құжатын импорттаңыз «Файлдарды жүктеу».

    Содан кейін нұқыңыз «Бет нөмірлерін таңдау» мәтінді тану үшін қажетті аралығын көрсетіңіз.
  3. Содан кейін құжаттағы тілдерді, алынған файлдың пішімін таңдаңыз және түймесін басыңыз «Тану».
  4. Өңдеу аяқталғаннан кейін, ұзақтығы құжаттың өлшеміне байланысты болады, аяқталған файлды мәтіндік деректермен жай атауын басу арқылы жүктеуге болады.

    Немесе оны бұлтты қызметтердің біріне экспорттаңыз.

Қызмет бейнеленген және PDF-файлдардағы ең дәл мәтінді тану алгоритмімен ерекшеленеді. Бірақ, өкінішке орай, оны тегін пайдалану айына өңделген бес бетке шектелген. Көбірек көлемді құжаттармен жұмыс істеу үшін бір жылдық жазылымды сатып алу қажет.

Алайда, егер OCR функциясы өте сирек қажет етсе, ABBYY FineReader Online шағын PDF файлдарынан мәтінді шығарудың керемет мүмкіндігі болып табылады.

2-әдіс: Тегін онлайн-OCR

Мәтінді цифрлау үшін қарапайым және ыңғайлы қызмет. Тіркеуге қажеттілік жоқ ресурс сағатына 15 толық PDF-бетті тануға мүмкіндік береді. Free Online OCR құжаттары 46 тілде толық жұмыс істейді және рұқсатсыз үш мәтінді экспорттау пішімдерін қолдайды - DOCX, XLSX және TXT.

Тіркеу кезінде пайдаланушы бірнеше беттік құжаттарды өңдей алады, бірақ осы беттердің бос саны 50 бірлікпен шектеледі.

Тегін онлайн ОКЖ онлайн қызметі

  1. Мәтінді PDF-де «қонағы» ретінде тану үшін ресурста авторизациясыз, сайттың негізгі бетінде тиісті пішінді пайдаланыңыз.

    Түймені пайдаланып қажетті құжатты таңдаңыз «Файл», негізгі мәтін тілін, шығу пішімін көрсетіңіз, содан кейін файлды жүктеуді және басуды күтіңіз «Түрлендіру».
  2. Цифрлау үрдісінің соңында нұқыңыз «Шығарылған файлды жүктеу» аяқталған құжатты компьютердегі мәтінмен сақтау.

Уəкілетті қолданушылар үшін əрекеттердің бірізділігі əртүрлі болады.

  1. Түймені қолданыңыз «Тіркеу» немесе «Кіру» жоғарғы мәзір жолағынан, тиісінше, тегін онлайндық OCR тіркелгісін жасаңыз немесе оған кіріңіз.
  2. Тану тақтасында авторизациядан кейін пернені басып тұрыңыз «CTRL», ұсынылған тізімнен бастапқы құжаттың екі тілін таңдаңыз.
  3. Мәтінді PDF пішімінен алудың қосымша нұсқаларын көрсетіңіз және түймесін басыңыз. «Файлды таңдау» құжатты қызметке жүктеу.

    Содан кейін тануды бастау үшін, түймесін басыңыз «Түрлендіру».
  4. Құжатты өңдегеннен кейін тиісті бағанда шығыс файлының атауымен сілтемесін нұқыңыз.

    Тану нәтижесі дереу компьютеріңіздің жадында сақталады.

Егер кішкентай PDF құжатынан мәтінді шығару қажет болса, жоғарыда сипатталған құралды пайдалануды табуға болады. Үлкен файлдармен жұмыс істеу үшін, Free Online OCR-да қосымша рәміздерді сатып алуға немесе басқа шешімге баруға тура келеді.

3-әдіс: NewOCR

DjVu және PDF сияқты кез келген графикалық және электрондық құжаттарды мәтіннен алуға мүмкіндік беретін толық OCR-қызметі. Ресурс та танылатын файлдар саны мен саны бойынша шектеулер енгізбейді, тіркелуді қажет етпейді және байланысты функциялардың кең ауқымын ұсынады.

NewOCR 106 тілде жұмыс істейді және тіпті төмен сапалы құжаттарды сканерлеуді дұрыс өңдей алады. Файл бетіндегі мәтінді тану үшін аумақты қолмен таңдауға болады.

Онлайн-сервис NEWOCR

  1. Осылайша, қажетсіз әрекеттерді орындамай, ресурспен дереу жұмыс істей аласыз.

    Тікелей бас бетке сайтқа құжатты импорттаудың нысаны бар. Файлды NewOCR файлына жүктеу үшін, түймені пайдаланыңыз «Файлды таңдау» бөлімде «Файлыңызды таңдаңыз». Сонда далада «Тану тілі (лері)» Бастапқы құжаттың бір немесе бірнеше тілдерін таңдап, нұқыңыз «Жүктеу + OCR».
  2. Таңдаулы тану параметрлерін орнатыңыз, мәтінді шығарып алу үшін қажетті бетті таңдап, түймесін басыңыз. «OCR».
  3. Біраз төмен айналдырып, түймені табыңыз. Жүктеу.

    Оны басыңыз және ашылмалы тізімнен жүктеу үшін қажетті құжатты пішімін таңдаңыз. Осыдан кейін, алынған мәтінмен аяқталған файл сіздің компьютеріңізге жүктеледі.

Құрал ыңғайлы және жеткілікті жоғары сапада барлық таңбаларды таниды. Дегенмен, импортталған PDF құжатының әр бетін өңдеу дербес іске қосылып, бөлек файлда көрсетілуі керек. Әрине, тану нәтижелерін аралық сақтағышқа көшіріп, басқалармен біріктіруге болады.

Дегенмен, жоғарыда келтірілген нобалды ескере отырып, НьюОКР-ны қолданатын мәтіннің үлкен көлемі өте қиын. Сол кішкентай файлдармен қызмет көрсету «жарылыспен» жұмыс істейді.

4-әдіс: OCR.Space

Мәтінді цифрлау үшін қарапайым және түсінікті ресурс PDF құжаттарын тануға және нәтижелерді TXT файлына шығаруға мүмкіндік береді. Беттердің саны шектелмейді. Жалғыз шектеулер енгізу құжатының өлшемі 5 мегабайттан аспауы керек.

OCR.Space онлайн қызметі

  1. Құралмен жұмыс істеу үшін тіркелу қажет емес.

    Жоғарыда көрсетілген сілтемеге шертіп, PDF құжатын компьютерден веб-сайтқа жүктеңіз «Файлды таңдау» немесе желіден - сілтеме арқылы.
  2. Ашылмалы тізімде «OCR тілін таңдау» импортталған құжаттың тілін таңдаңыз.

    Содан кейін батырманы басу арқылы мәтінді тану процесін бастаңыз. «OCR бастау!».
  3. Файлды өңдеу соңында нәтижені қараңыз «OCR нәтижесі» және нұқыңыз Жүктеудайын TXT құжатын жүктеу.

Егер сіз PDF-ден мәтінді шығаруды қажет етсеңіз және түпкілікті пішімдеу мүлде маңызды болмаса, OCR.Space - бұл жақсы таңдау. Жалғыз құжат «монолингвистикалық» болуы керек, өйткені қызмет барысында бір уақытта екі немесе одан да көп тілдерді тану қарастырылмаған.

Қараңыз: FineReader тегін аналогтары

Мақалада ұсынылған онлайн-құралдарды бағалау, ABBYY-дан FineReader Online қызметі OCR функциясын ең дәл және нақты түрде өңдейтінін атап өту керек. Егер мәтінді танудың максималды дәлдігі сіз үшін маңызды болса, бұл параметрді нақты қарастырған дұрыс. Бірақ оны төлеу үшін, ең алдымен, қажет.

Егер сізге шағын құжаттарды цифрлау керек болса және сіз қателерді түзетуге дайын болсаңыз, NewOCR, OCR.Space немесе Free Online OCR пайдалану ұсынылады.