Hãy quét tài liệu của bạn và lưu vào ổ đĩa cứng. Bài viết
sẽ giới thiệu các thủ thuật sử dụng máy quét, phần mềm hoặc website
nhận dạng ký tự quang học, và cách chuyển đổi sách giấy của bạn thành
sách điện tử.
Không gian cần có để lưu trữ tài liệu bằng giấy có thể là một vấn đề.
Số hóa tài liệu của bạn cho phép bạn có thể mang các tài liệu này theo
bên mình – bạn có thể lưu cả một thư viện trên thiết bị đọc sách điện tử
(e-reader) một cách dễ dàng. Và vì tài liệu bằng giấy có thể chuyển đổi
thành tài liệu kỹ thuật số có thể hiệu chỉnh được trên máy tính, bạn có
thể tìm kiếm các tài liệu này nhanh chóng. Hãy so sánh thao tác gõ một
từ cụ thể trong thanh tìm kiếm thay vì suốt ngày phải lật giở các chồng
báo cũ để tìm kiếm bằng mắt về nội dung nào đó. Tài liệu kỹ thuật số rất
thuận lợi cho các nhà nghiên cứu trên khắp thế giới.
Bạn có thể lưu trữ tài liệu bằng phương pháp kỹ thuật số theo một
trong hai cách: dưới dạng hình ảnh hay các tập tin văn bản. Hình ảnh tốn
nhiều không gian lưu trữ hơn, nhưng giữ lại được chữ viết và nét đặc
trưng của tài liệu gốc. Muốn chuyển đổi một hình ảnh đã được quét thành
một văn bản hay tập tin xử lý bằng máy tính, cần phải dùng phần mềm nhận
dạng ký tự quang học, hay còn gọi là phần mềm OCR. Đây là trường hợp
dùng thuật ngữ sai, vì thật sự bạn đang xử lý thông tin kỹ thuật số,
nhưng thuật ngữ này đã được dùng phổ biến rồi.
Nếu tài liệu gốc được viết tay hay là một bức họa, bạn nên lưu trữ nó
bằng hình ảnh vì chữ viết tay có thể có ý nghĩa ngang với chính các từ
được viết. Một lý do khác để lưu trữ tài liệu viết tay dưới dạng hình
ảnh là hiện chưa có phần mềm thương mại nhận dạng chữ viết tay nào có
thể chuyển đổi chữ viết tay từ các bản quét. Cho đến nay, đó là một công
nghệ dành riêng cho thiết bị PDA và máy tính bảng, đối với chữ viết tay
trực tiếp trên màn hình của các thiết bị này. Anne-Sophie Bellaud của
Vision Objects (một công ty cung cấp phần mềm nhận dạng chữ viết tay)
giải thích rằng, với máy tính bảng, bạn biết được thứ tự các chữ viết
tay được nhập vào. Điều này giúp phần mềm đoán ra được. Nếu không có mốc
thời gian nhập, chữ viết hầu như không dễ để nhận dạng.
MÁY QUÉT
Dù bạn có lưu trữ tài liệu của bạn bằng cách nào đi chăng nữa – bằng
hình ảnh hay tập tin văn bản – bạn sẽ phải cần máy quét để số hóa chúng.
Nếu bạn có tương đối ít tài liệu để xử lý, bạn chỉ cần một máy in đa
năng hay một máy quét phẳng chuyên dùng là đủ. Tuy nhiên, các máy này
chạy tương đối chậm, và chỉ có các model đắt tiền hơn mới có khay nạp
giấy tự động để xử lý các tài liệu nhiều trang.
Dù đắt tiền, nhưng các máy quét có khay nạp giấy là thích hợp nếu bạn cần xử lý nhanh nhiều tài liệu.
Các máy quét như ScanSnap S1500 của Fujitsu giá 495 USD (~10,4 triệu
đồng) và ScanJet Professional 3000 của HP giá 450 USD (~9,5 triệu đồng)
có thể quét cả hai mặt của một tài liệu cùng lúc với tốc độ 20
trang/phút hay nhanh hơn. Máy quét của HP có tính năng xử lý nạp giấy
tin cậy hơn với các loại tài liệu lẫn lộn, nhưng máy của Fujitsu lại đi
kèm phần mềm tích hợp tốt hơn, ưu việt hơn.
PHẦN MỀM OCR
Hầu hết máy quét đều có đi kèm phần mềm OCR để bạn có thể cài đặt lên
máy tính cá nhân, nhưng nếu máy quét của bạn không có phần mềm này, bạn
có thể mua phần mềm riêng. Những chọn lựa tốt là FineReader 9 Express
giá $50 (~1 triệu đồng) của ABBYY, OmniPage 17 Standard giá $150 (~3,2
triệu đồng) của Nuance, và Acrobat X Standard giá $299 (~6,3 triệu đồng)
của Adobe. Ngoài ra, phần mềm PaperPort 12 Standard giá $100 (~2,1
triệu đồng) của Nuance cũng có thể quét, nhận dạng OCR, và có thêm tính
năng quản lý tài liệu giúp bạn dễ dàng theo dõi tài liệu đã quét. Cũng
có các phiên bản giá rẻ hơn cho hầu hết các chương trình này.
Trong các thử nghiệm thực tiễn với các bản quét độ phân giải 300dpi,
Acrobat chuyển đổi tài liệu tốt nhất, theo sát sau đó là FineReader, và
sau nữa là OmniPage và PaperPort. Nhưng 3 sản phẩm sau lại chuyển đổi
tốt hơn trong thử nghiệm 3 bản quét 150dpi chất lượng thấp hơn.
Đối với các tài liệu lưu trữ bằng hình ảnh, các bản quét 150-200dpi
thường chuyển đổi tốt, nhưng phần mềm OCR dùng tốt hơn với các bản quét
300dpi. Hầu hết tùy thuộc vào nhu cầu của bạn. Nếu bạn chỉ muốn cần đọc
được, bạn có thể giảm độ phân giải và giảm dung lượng tập tin.
TRANG WEB OCR
Nhiều dịch vụ trực tuyến như
http://www.free-ocr.com,
http://www.newocr.com, và
http://www.ocronline.com
rất tốt cho các dự án quy mô nhỏ hay chỉ thực hiện một lần. Trước hết,
bạn hãy quét bản gốc vào máy tính rồi tải tài liệu lên trang web OCR.
Các dịch vụ này có mặt hạn chế là kết quả các thử nghiệm không được
chính xác. Ngoài ra, chỉ nhận dạng được văn bản mà thôi, các dòng kẻ và
các yếu tố khác của trang không nhận dạng được.
Dịch vụ trên trang web
http://www.free-ocr.com
là dịch vụ miễn phí, nhưng tập tin không được lớn hơn 2MB, và rộng hay
cao hơn 5.000 pixel (khoảng 150dpi cho một trang khổ 8,5×11”); và bạn
không được tải lên hơn 10 lần trong một giờ.
Một dịch vụ khác là
http://www.newocr.com
cũng miễn phí, nhưng giao diện còn thô sơ. Tuy nhiên, dịch vụ này
chuyển đổi văn bản tốt hơn free-ocr.com và cho phép chuyển đổi các tài
liệu có dung lượng lên đến 5MB.
Cuối cùng là
http://www.ocronline.com,
dịch vụ này đòi hỏi phải tạo một tài khoản miễn phí, nhưng cho phép
chuyển đổi hình ảnh 4MB (khoảng 200dpi mỗi trang) và có thể tải lên đến
15 lần mỗi giờ. Bạn được tặng miễn phí 10 khoản tín dụng (credit), nhưng
sau đó bạn phải trả tiền để mua credit. Trang web này bán credit với số
lượng khác nhau, từ 50 trang với giá 3,95 USD (~83.000 đồng), tương
đương 1.700 đồng/trang, đến 5.000 trang với giá 49,95 USD (~1 triệu
đồng), tương đương 210 đồng/trang. Kết quả từ dịch vụ này rất tốt, xử lý
được các yếu tố đồ họa và luôn cả văn bản, dù chưa đạt được chuẩn như
các phần mềm Acrobat X hay FineReader 10.
SÁCH ĐIỆN TỬ
Không gì sánh bằng tính ổn định về xúc giác, khứu giác và thị giác
của một cuốn sách thật, nhưng ngày càng nhiều người đang sung sướng đọc
sách ảo với các thiết bị như Kindle, Nook, iPad và các thiết bị khác.
Điểm trội của loại sách này là tính di động, và văn bản có thể tìm kiếm
được. Bạn cũng có thể đọc sách trên smartphone hay iPod. Với iPod, có
thể bạn không ngại phải lật trang thường xuyên, dù chắc chắn là sau này
nhiều người sẽ tìm một thiết bị lớn hơn. Ngoài sách từ các gian hàng
trực tuyến, bạn có thể tự đưa vào những cuốn chưa được bán ra dưới định
dạng kỹ thuật số.
Để chuyển đổi một quyển sách in thành sách điện tử (e-book), bạn cần
quét từng trang một của quyển sách, sau đó OCR (người viết tạm dùng
thuật ngữ này vì không có từ tốt hơn) các trang này. Công việc này khá
mệt mỏi, hãy dùng máy quét có tốc độ nhanh. Nếu bạn sẵn sàng làm hỏng
quyển sách, hay biết cách đóng gáy sách lại, bạn có thể dùng máy quét có
khay nạp giấy tự động. Hầu hết các chương trình OCR nói trên đều có
tính năng giúp sắp xếp trang.
Khi bạn đã có được tập tin văn bản (ở định dạng PDF, Word hay định
dạng khác), hãy dùng Calibre – một phần mềm đọc, sắp xếp, hiệu chỉnh,
xuất bản e-book miễn phí và mạnh mẽ – chuyển đổi tập tin sang định dạng
thích hợp với thiết bị của bạn, thí dụ EPUB hay PDF. Khi bạn đã tạo được
một tập tin xem được, hãy dùng một ứng dụng đọc sách như Stanza để tải
sách điện tử này vào thiết bị của bạn. Thiết bị hay ứng dụng của bạn
phải hỗ trợ tính năng tải tài liệu từ máy tính (side-loading).
CÔNG TY TNHH CNTT KHUÊ TÚ
Address: 39 Nguyển Bỉnh Khiêm St, Ward 1, District Gò Vấp, HCM City, VietNam
Tel: +84: 83588 0134 I Mobile: 0983 440 488 I Email:sales@khuetu.vn