სკანირება და ტექსტის ამოცნობა

Pin
Send
Share
Send

კარგი შუადღე

ალბათ, თითოეულ ჩვენგანს წინაშე დადგა ამოცანა, როდესაც საჭირო გახდა ქაღალდის დოკუმენტის ელექტრონული ფორმით თარგმნა. ეს განსაკუთრებით ხშირად აუცილებელია მათთვის, ვინც სწავლობს, მუშაობს დოკუმენტაციით, თარგმნის ტექსტებს ელექტრონული ლექსიკონების გამოყენებით და ა.შ.

ამ სტატიაში მსურს გაგიზიაროთ ამ პროცესის საფუძვლები. ზოგადად, ტექსტის სკანირება და ამოცნობა საკმაოდ შრომატევადია, რადგან უმეტეს ოპერაციებს ხელით უნდა მოაწყოთ. შევეცდებით გაერკვნენ, რა, როგორ და რატომ.

ყველას დაუყოვნებლივ ესმის ერთი რამ. სკანირების შემდეგ (სკანერის ყველა ფურცლის დაყენება) გექნებათ სურათები BMP, JPG, PNG, GIF ფორმატში (შეიძლება იყოს სხვა ფორმატები). ასე რომ, ამ ნახატიდან უნდა მიიღოთ ტექსტი - ამ პროცედურას ეწოდება აღიარება. ამ ბრძანებაში იქნება ქვემოთ მოყვანილი განცხადება.

შინაარსი

  • 1. რა არის საჭირო სკანირებისა და ამოცნობისთვის?
  • 2. ტექსტის სკანირების პარამეტრები
  • 3. დოკუმენტის ტექსტის ამოცნობა
    • 3.1 ტექსტი
    • 3.2 სურათი
    • 3.3 მაგიდები
    • 3.4 არასაჭირო საგნები
  • 4. PDF / DJVU ფაილების ამოცნობა
  • 5. შეცდომების შემოწმება და მუშაობის შედეგების დაზოგვა

1. რა არის საჭირო სკანირებისა და ამოცნობისთვის?

1) სკანერი

ბეჭდური დოკუმენტების ტექსტად გადაყვანის მიზნით, ჯერ საჭიროა სკანერი და, შესაბამისად, "მშობლიური" პროგრამები და მასთან ერთად მოსულ მძღოლები. მათი გამოყენებით, შეგიძლიათ სკანირება მოახდინოთ დოკუმენტი და შეინახოთ იგი შემდგომი დამუშავებისთვის.

თქვენ შეგიძლიათ გამოიყენოთ სხვა ანალოგები, მაგრამ პროგრამა, რომელიც სკანერთან სკანერთან ერთად მოვიდა, ჩვეულებრივ მუშაობს უფრო სწრაფად და აქვს მეტი პარამეტრები.

დამოკიდებულია იმაზე, თუ რა სახის სკანერი გაქვთ, მუშაობის სიჩქარე შეიძლება მნიშვნელოვნად განსხვავდებოდეს. არსებობს სკანერები, რომლებსაც შეუძლიათ ფურცლიდან 10 წამში სურათის მიღება, იქ მიიღებენ 30 წამში. თუ წიგნს სკანირებს 200-300 ფურცლად - ვფიქრობ, არ არის რთული იმის გამოანგარიშება, რამდენჯერ იქნება დრო სხვაობა?

 

2) აღიარების პროგრამა

ჩვენს სტატიაში მე გაჩვენებთ მუშაობას ერთ – ერთ საუკეთესო პროგრამაში, სკანირებისა და აბსოლუტურად ნებისმიერი დოკუმენტის აღიარებისთვის - ABBYY FineReader. იმიტომ მას შემდეგ, რაც პროგრამა გადაიხდება, მე დაუყოვნებლივ მივცემ ბმულს სხვა - Cunei ფორმის უფასო ანალოგს. მართალია, მე მათ ვერ შევადარებდი, იმის გამო, რომ FineReader– ი იმარჯვებს ყველა თვალსაზრისით, მე მაინც გირჩევთ, რომ სცადოთ.

ABBYY FineReader 11

ოფიციალური ვებ-გვერდი: //www.abbyy.ru/

ერთ – ერთი საუკეთესო პროგრამა. იგი შექმნილია სურათში მოცემული ტექსტის ამოცნობისთვის. ჩამონტაჟებული მრავალი ვარიანტი და ფუნქცია. მას შეუძლია პარალელური შრიფტის დადება, იგი ხელნაწერის ვარიანტებსაც კი უჭერს მხარს (თუმცა მე პირადად არ მინახავს ეს, ვფიქრობ, ძალიან ნაკლებად სავარაუდოა, რომ ის აღიარებს ხელნაწერ ვერსიას, თუ თქვენ არ გაქვთ სრულყოფილი კალიგრაფიული ხელნაწერი). დამატებითი დეტალები მასთან მუშაობის შესახებ ქვემოთ იქნება აღწერილი. აქვე აღვნიშნავთ, რომ სტატიაში ვისაუბრებთ მე –11 ვერსიის პროგრამაში მუშაობაზე.

როგორც წესი, ABBYY FineReader- ის სხვადასხვა ვერსიები არ განსხვავდება ერთმანეთისგან. ასე მარტივად შეგიძლიათ სხვაში. მთავარი განსხვავებები შეიძლება იყოს პროგრამის მოხერხებულობაში, სიჩქარეში და მის შესაძლებლობებში. მაგალითად, უფრო ადრე ვერსიები უარს ამბობენ PDF და DJVU ...

 

3) დოკუმენტები სკანირებისთვის

დიახ, ამის მსგავსად, გადავწყვიტე, დოკუმენტები ცალკე სვეტად გამეკეთებინა. უმეტეს შემთხვევაში, რამდენიმე სახელმძღვანელო, გაზეთი, სტატია, ჟურნალი და ა.შ. სკანირდება. ის წიგნები და მოთხოვნილ ლიტერატურა. რისკენ მივყავარ? პირადი გამოცდილებიდან შემიძლია ვთქვა, რომ ბევრი რამ, რაც გსურთ სკანირება, ალბათ უკვე ქსელშია! რამდენჯერ გამომიცხადა დრო, როცა ქსელში უკვე სკანირებული კონკრეტული წიგნი ვიპოვნე. ყველაფერი რაც მე უნდა გამეკეთებინა, ტექსტში ჩაწერა ტექსტში და მასთან მუშაობა გავაგრძელო.

აქედან, მარტივი წვერი - სანამ რამის სკანირებას აპირებთ, შეამოწმეთ თუ არა ვინმემ უკვე დასკანერებული და არ გჭირდებათ თქვენი დროის დაკარგვა.

 

2. ტექსტის სკანირების პარამეტრები

აქ მე არ ვისაუბრებ სკანერის თქვენს დრაივერებზე, მასზე წასულ პროგრამებზე, რადგან სკანერის ყველა მოდელი განსხვავებულია, პროგრამა ასევე ყველგან განსხვავებულია, და არარეალურია იმის გამოცნობა, თუ როგორ უნდა შესრულდეს ოპერაცია.

მაგრამ ყველა სკანერს აქვს იგივე პარამეტრები, რაც დიდ გავლენას ახდენს თქვენი მუშაობის სისწრაფესა და ხარისხზე. ჩვენ აქ ვისაუბრებთ. წესრიგად ჩამოვთვლი.

1) სკანირების ხარისხი - DPI

პირველი, პარამეტრების სკანირების პარამეტრი დააყენეთ მინიმუმ 300 DPI. მიზანშეწონილი იქნება მითითებულიც კი, თუ ეს შესაძლებელია. რაც უფრო მაღალია DPI მაჩვენებელი, უფრო ნათელი იქნება თქვენი სურათი, და ამრიგად, შემდგომი დამუშავება უფრო სწრაფი იქნება. გარდა ამისა, რაც უფრო მაღალია სკანირების ხარისხი, ნაკლები შეცდომები მოგვიანებით გამოსწორდება.

საუკეთესო ვარიანტი, როგორც წესი, იძლევა 300-400 DPI.

 

2) ფერი

ეს პარამეტრი გავლენას ახდენს სკანირების დროზე ძალიან ძლიერად (სხვათა შორის, DPI ასევე მოქმედებს, მაგრამ ეს ისეთი ძლიერია და მხოლოდ მაშინ, როდესაც მომხმარებელი ადგენს მაღალ მნიშვნელობებს).

ჩვეულებრივ, არსებობს სამი რეჟიმი:

- შავი და თეთრი (სრულყოფილია მარტივი ტექსტისთვის);

- ნაცრისფერი (შესაფერისია ტექსტებთან ერთად ცხრილები და სურათები);

- ფერი (ფერადი ჟურნალებისთვის, წიგნებისთვის, ზოგადად, დოკუმენტებისთვის, სადაც ფერი მნიშვნელოვანია).

როგორც წესი, სკანირების დრო დამოკიდებულია ფერის არჩევანზე. მართლაც, თუ თქვენ გაქვთ დიდი დოკუმენტი, მაშინ დამატებითი 5-10 წამის გვერდზეც კი, მთლიანობაში, დაისხამს კარგ დროს ...

 

3) ფოტოები

შეგიძლიათ მიიღოთ დოკუმენტი არა მხოლოდ სკანირებით, არამედ მისი ფოტოგრაფიითაც. როგორც წესი, ამ შემთხვევაში სხვა პრობლემები შეგექმნებათ: სურათის დამახინჯება, დაბინდვა. ამის გამო შეიძლება საჭირო გახდეს მიღებული ტექსტის კიდევ უფრო რედაქტირება და დამუშავება. პირადად მე, ამ ბიზნესისთვის კამერების გამოყენებას არ გირჩევთ.

მნიშვნელოვანია აღინიშნოს, რომ ყველა ასეთი დოკუმენტის ამოცნობა შეუძლებელია, რადგან სკანირების ხარისხი შეიძლება იყოს ძალიან დაბალი ...

 

3. დოკუმენტის ტექსტის ამოცნობა

ჩვენ ვთვლით, რომ თქვენ გაქვთ სანუკვარ დასკანერებული გვერდები. ყველაზე ხშირად ისინი ფორმატებია: tif, bmb, jpg, png. ზოგადად, ABBYY FineReader- ისთვის - ეს არ არის ძალიან მნიშვნელოვანი ...

ABBYY FineReader- ში სურათის გახსნის შემდეგ, პროგრამა, როგორც წესი, ავტომატურად ირჩევს ადგილებს და ცნობს მათ აპარატზე. მაგრამ ზოგჯერ ის არასწორედ იქცევა. ამისათვის ჩვენ განვიხილავთ საჭირო ტერიტორიების შერჩევას ხელით.

მნიშვნელოვანია! ყველას დაუყოვნებლივ ესმის, რომ პროგრამაში დოკუმენტის გახსნის შემდეგ, წყარო დოკუმენტი ნაჩვენებია მარცხენა ფანჯარაში, რომელშიც შეარჩიეთ სხვადასხვა სფეროები. "ამოცნობის" ღილაკზე დაჭერის შემდეგ, მარჯვენა ფანჯარაში მდებარე პროგრამა გაჩვენებთ მზა ტექსტს. ცნობის შემდეგ, სხვათა შორის, მიზანშეწონილია შეამოწმოთ ტექსტი შეცდომების შესახებ იმავე FineReader– ში.

 

3.1 ტექსტი

ეს ტერიტორია გამოიყენება ტექსტის ხაზგასასმელად. სურათები და ცხრილი უნდა გამოირიცხოს მისგან. იშვიათი და უჩვეულო შრიფტები უნდა შევიდეს ხელით ...

ტექსტის არეალის შესარჩევად ყურადღება მიაქციეთ პანელს FineReader- ის ზედა ნაწილში. არსებობს ღილაკი "T" (იხ. სკრინშოტი ქვემოთ, თაგვის ისარი მხოლოდ ამ ღილაკზეა გამოსახული). დააჭირეთ მასზე, შემდეგ კი ქვემოთ მოცემულ სურათში შეარჩიეთ სისუფთავე მართკუთხა არე, რომელშიც ტექსტი მდებარეობს. სხვათა შორის, ზოგიერთ შემთხვევაში თქვენ უნდა შექმნათ ტექსტური ბლოკი 2-3, და ზოგჯერ 10-12 თითო გვერდზე, იმიტომ ტექსტის ფორმატირება შეიძლება იყოს განსხვავებული და ერთი ოთხკუთხედი არ ირჩევს მთელ არეალს.

მნიშვნელოვანია აღინიშნოს, რომ სურათები არ უნდა მოხვდეს ტექსტურ არეალში! მომავალში, ეს დაზოგავს უამრავ დროს ...

3.2 სურათი

გამოიყენება ხაზი გავუსვა სურათებისა და ტერიტორიების, რომელთა ამოცნობა რთულია ცუდი ხარისხის ან უჩვეულო შრიფტის გამო.

ქვემოთ მოცემულ ეკრანზე, თაგვის ისარი მდებარეობს ღილაკზე, რომელიც გამოიყენება "სურათის" არეალის შესარჩევად. სხვათა შორის, ამ სფეროში შეგიძლიათ აირჩიოთ აბსოლუტურად გვერდის ნებისმიერი ნაწილი, ხოლო FineReader შემდეგ ჩასვათ იგი დოკუმენტში, როგორც ჩვეულებრივი სურათი. ე.ი. უბრალოდ "სულელურად" ასლი ...

ჩვეულებრივ, ეს ტერიტორია გამოიყენება ცუდად დასკანერებული ცხრილების ხაზგასმით, არასტანდარტული ტექსტისა და შრიფტის ხაზგასმით, თავად სურათებით.

3.3 მაგიდები

ქვემოთ მოცემულ ეკრანზე ნაჩვენებია ღილაკების ხაზს უსვამს ხაზს. ზოგადად, მე პირადად მას ძალიან იშვიათად ვიყენებ. ფაქტია, რომ თქვენ მოგიწევთ საკმაოდ რუტინულად დახატვა (ფაქტობრივად) მაგიდაზე თითოეული სტრიქონი და აჩვენეთ რა და როგორ უნდა პროგრამას. თუ ცხრილი მცირეა და არც თუ ისე კარგი ხარისხის, გირჩევთ გამოიყენოთ "სურათის" არეალი ამ მიზნებისათვის. ამრიგად, დაზოგე ბევრი დრო და შემდეგ მაგიდაზე გამოსახულების სწრაფად შექმნა შეგიძლიათ სურათზე დაყრდნობით.

 

3.4 არასაჭირო საგნები

მნიშვნელოვანია აღინიშნოს. ზოგჯერ გვერდზე არის ზედმეტი ელემენტები, რომლებიც ხელს უშლის ტექსტის აღიარებას, ან თუნდაც ხელს შეგიშლით სასურველი ტერიტორიის ხაზგასმას. მათი ამოღება შესაძლებელია მთლიანად საშლელის გამოყენებით.

ამისათვის გადადით სურათის რედაქტირების რეჟიმში.

 

 

შეარჩიეთ საშლელი ხელსაწყო და შეარჩიეთ ზედმეტი არე. ის ამოიშლება და მის ადგილზე თეთრი ფურცელი იქნება.

 

სხვათა შორის, გირჩევთ გამოიყენოთ ეს ვარიანტი რაც შეიძლება ხშირად. შეეცადეთ შეარჩიოთ ყველა თქვენი ტექსტი, სადაც ტექსტი არ გჭირდებათ, ან რაიმე ზედმეტი წერტილები, დაბინდვა, დამახინჯება არსებობს - წაშალეთ საშლელით. ამის წყალობით, აღიარება უფრო სწრაფი იქნება!

 

4. PDF / DJVU ფაილების ამოცნობა

ზოგადად, ამ აღიარების ფორმა არ განსხვავდება დანარჩენისაგან - ე.ი. თქვენ შეგიძლიათ იმუშაოთ ისევე, როგორც სურათებით. ერთადერთი ის არის, რომ პროგრამა არ უნდა იყოს ძალიან ძველი, თუ PDF / DJVU ფაილები არ იხსნება თქვენთვის - განაახლეთ ვერსია 11 ვერსიამდე.

 

პატარა წვერი. FineReader- ში დოკუმენტის გახსნის შემდეგ - ის ავტომატურად დაიწყებს დოკუმენტის ამოცნობას. ხშირად PDF / DJVU ფაილებში, გვერდის კონკრეტული ტერიტორია საჭირო არ არის მთელი დოკუმენტის განმავლობაში! ამგვარი ტერიტორიის ყველა გვერდის მოსაშორებლად, გააკეთეთ შემდეგი:

1. გადადით სურათის რედაქტირების განყოფილებაში.

2. ჩართეთ "მოსავლის" ვარიანტი.

3. შეარჩიეთ თქვენთვის სასურველი ადგილი ყველა გვერდზე.

4. დააჭირეთ ყველა გვერდზე და მოსავალს.

5. შეცდომების შემოწმება და მუშაობის შედეგების დაზოგვა

როგორც ჩანს, ჯერ კიდევ შეიძლება პრობლემები არსებობდეს, როდესაც ყველა სფერო იყო მონიშნული, შემდეგ აღიარებული - აიღე და შეინახე ... აქ იყო!

პირველი, თქვენ გჭირდებათ დოკუმენტის შემოწმება!

ამის გასააქტიურებლად, ფანჯრის მარჯვნივ მარჯვნივ, ღილაკზე "გამშვები" იქნება, იხილეთ ქვემოთ მოცემული ეკრანის ანაბეჭდი. მასზე დაწკაპუნების შემდეგ FineReader პროგრამა ავტომატურად გაჩვენებთ იმ ადგილებს, სადაც პროგრამას აქვს შეცდომები და ვერ შეძლო საიმედოდ ამოიცნოთ კონკრეტული პერსონაჟი. თქვენ მხოლოდ არჩევანის გაკეთება მოგიწევთ, ან ეთანხმებით პროგრამის აზრს, ან შეიტანეთ პერსონაჟი.

სხვათა შორის, ნახევარ შემთხვევაში, დაახლოებით, პროგრამა შემოგთავაზებთ მზა სწორ სიტყვას - თქვენ უბრალოდ უნდა აირჩიოთ საჭირო ვარიანტი მაუსის საშუალებით.

 

მეორეც, შემოწმების შემდეგ, თქვენ უნდა აირჩიოთ ფორმატი, რომელშიც დაზოგავთ თქვენი მუშაობის შედეგს.

აქ FineReader საშუალებას გაძლევთ განათავსოთ მაქსიმალურად: შეგიძლიათ მარტივად გადაიტანოთ ინფორმაცია Word- დან ერთზე, ან შეგიძლიათ შეინახოთ იგი ათობით ფორმატში. მაგრამ მე მინდა აღვნიშნო კიდევ ერთი მნიშვნელოვანი ასპექტი. როგორი ფორმადაც არ უნდა აირჩიოთ, უფრო მნიშვნელოვანია აირჩიოთ ასლის ტიპი! განვიხილოთ ყველაზე საინტერესო პარამეტრები ...

ზუსტი ასლი

ყველა ის სფერო, რაც თქვენ ხაზგასმით აღიარეთ დოკუმენტში მოცემულ გვერდზე, ზუსტად ემთხვევა პირვანდელ დოკუმენტს. ძალიან მოსახერხებელი ვარიანტი, როდესაც თქვენთვის მნიშვნელოვანია, რომ არ დაკარგოთ ტექსტის ფორმატირება. სხვათა შორის, შრიფტები ასევე ძალიან ჰგავს ორიგინალს. ამ პარამეტრით, გირჩევთ დოკუმენტის Word- ზე გადატანა, რათა შემდგომი მუშაობა აქ გაგრძელდეს.

რედაქტირებადი ასლი

ეს ვარიანტი კარგია იმით, რომ თქვენ მიიღებთ ტექსტის უკვე ფორმატირებულ ვერსიას. ე.ი. აბზაცება "კილომეტრით", რომელიც შესაძლოა წყაროში მოხვდეს - თქვენ ვერ შეხვდებით. სასარგებლო ვარიანტი, როდესაც თქვენ მნიშვნელოვნად შეცვლით ინფორმაციას.

მართალია, თქვენ არ უნდა აირჩიოთ, თუ თქვენთვის მნიშვნელოვანია, რომ შეინარჩუნოთ დიზაინის სტილი, შრიფტები, ქვევრები. ზოგჯერ, თუ აღიარება არ არის ძალიან წარმატებული, თქვენი დოკუმენტი შეიძლება შეცვალოს ფორმატის შეცვლის გამო. ამ შემთხვევაში, სასურველია აირჩიოთ ზუსტი ასლი.

ჩვეულებრივი ტექსტი

ვარიანტი მათთვის, ვისაც მხოლოდ გვერდიდან ტექსტი სჭირდება, დანარჩენის გარეშე. ვარგისია დოკუმენტებისა სურათებისა და ცხრილების გარეშე.

 

ამ სტატიაზე დასრულდა დოკუმენტის სკანირებისა და ამოცნობის შესახებ. ვიმედოვნებ, რომ ამ მარტივი რჩევებით თქვენ შეგიძლიათ მოაგვაროთ თქვენი პრობლემები ...

წარმატებებს გისურვებთ

Pin
Send
Share
Send