Интернет-корпорация приобрела компанию с целью более быстрого воплощения планов по оцифровке миллионов книг и периодических изданий, доступных через службы и .
Пример работы reCAPTCHA.
reCAPTCHA, созданная в 2008 году, является поставщиком разработанной в одноименной технологии, которая позволяет ускорить оцифровку текста, не поддающегося автоматической обработке в программах оптического распознавания (старые книги и газеты, выцветшие документы, тексты на сгибах страниц и т. п.).
Система reCAPTCHA работает следующим образом. Пользователю предлагается распознать два слова, одно из которых сервису reCAPTCHA уже известно, а второе — нет. Если пользователь правильно выполняет задание с известным словом, reCAPTCHA считает, что он «знает» и неизвестное слово. При этом для повышения вероятности распознавания одно и то же слово предлагается нескольким людям.
В основе reCAPTCHA лежит технология под названием (Completely Automated Public Turing Test to Tell Computers and Humans Apart, или полностью автоматизированный открытый тест Тьюринга по распознаванию людей и машин). Вы наверняка сталкивались с одной из форм этого теста, когда вам предлагали прочесть и ввести случайно выбранное слово, изображенное намеренно искаженными буквами (см. иллюстрацию). CAPTCHA, позволяющая с довольно высокой точностью определить, кто пользуется системой (человек или компьютер), нашла широкое применение в качестве защиты от автоматических регистраций на сайтах, при отправке сообщений, загрузке файлов и пр.
Как заявляют в Google, поскольку reCAPTCHA уже активно используется на множестве сайтов (более 100 тыс.) для прохождения аутентификации, было бы расточительным не начать предлагать пользователям взятые из старых печатных источников проблемные слова для распознавания.
Сравнение оригинального текста с автоматически распознанным компьютером.