Кто-то пошутил: "Можно бесконечно смотреть на три вещи: на текущую воду, полыхающий огонь и на работающего человека... ". Полагаю, смотреть должен неработающий...
А если серьезно, то действительно, способность человека к творению чего-либо нового меня восхищает! Я всегда вдохновляюсь идеями, которые креативны и результативны настолько, что это подвигает миллионы людей или на созидательную деятельность или порождает некую новую услугу, возможность, продукт, ранее не существовавший, но теперь незаменимый.
Сегодня меня порадовал ЖЖ. Неожиданным образом, я узнал, что при написании комментов в анонимном режиме, в качестве спам защиты используется некая новая разработка, названная reCAPTCHA. Заинтересовался... И обнаружил, что ребята из Carnegie Mellon University придумали потрясающую систему, совершающую две работы в одном: 1) защита программ от спама 2) скан книг и расшифровка аудиозаписей.
Идея весьма проста, и тем красива. Каждому человеку, который пытается отправить мейл или написать текст в сайтах, установивших эту защиту, предлагается ввести всего два слова. Тем самым система распознает, вводит текст реальный человек или же компьютерная программа. Но откуда беруться эти два слова и что делается с введенными текстами? Вот тут-то вся соль.
Слова берутся из засканированных книг и статей, и посредством этой маленькой, но полезной работы миллионов борцов со спамом, слово за словом проверяется корректность текстов, распознанных OCR системой (Optical Character Recognition — Оптическое распознавание символов).

Проблема этих самых систем распознания текста, что они не всегда понимают что к чему. Ну а что мы от них ждали? Они же машины! Некачественные тексты не понимают. Тут и нужна помощь людей. Для этого reCAPTCHA и подключили всех тех, кто желал бы защититься от спама.
Как же их reCAPTCHA понимает, что слово введено правильно? Создатели объясняют так. Пользователю выдают два слова: ОДНО - это уже проверенное на ошибки, а ВТОРОЕ - проверяемое. Если вы корректно ввели проверенное слово, то второе скорее всего также верно. (Ну плюс еще наверняка согласуемость с текстом, распознанным с помощью OCR.Так же они делают текстовые файлы из аудио и видео файлов. Результатом всего этого является Интернет архив книг и аудио, видео материалов а также архив старых изданий Нью-Йорк Таймс.
Получается, на сканирование всех этих книг пашим мы все! :) Гениально, Ватсон!!!
А если серьезно, то действительно, способность человека к творению чего-либо нового меня восхищает! Я всегда вдохновляюсь идеями, которые креативны и результативны настолько, что это подвигает миллионы людей или на созидательную деятельность или порождает некую новую услугу, возможность, продукт, ранее не существовавший, но теперь незаменимый.
Сегодня меня порадовал ЖЖ. Неожиданным образом, я узнал, что при написании комментов в анонимном режиме, в качестве спам защиты используется некая новая разработка, названная reCAPTCHA. Заинтересовался... И обнаружил, что ребята из Carnegie Mellon University придумали потрясающую систему, совершающую две работы в одном: 1) защита программ от спама 2) скан книг и расшифровка аудиозаписей.
Идея весьма проста, и тем красива. Каждому человеку, который пытается отправить мейл или написать текст в сайтах, установивших эту защиту, предлагается ввести всего два слова. Тем самым система распознает, вводит текст реальный человек или же компьютерная программа. Но откуда беруться эти два слова и что делается с введенными текстами? Вот тут-то вся соль.
Слова берутся из засканированных книг и статей, и посредством этой маленькой, но полезной работы миллионов борцов со спамом, слово за словом проверяется корректность текстов, распознанных OCR системой (Optical Character Recognition — Оптическое распознавание символов).
Проблема этих самых систем распознания текста, что они не всегда понимают что к чему. Ну а что мы от них ждали? Они же машины! Некачественные тексты не понимают. Тут и нужна помощь людей. Для этого reCAPTCHA и подключили всех тех, кто желал бы защититься от спама.
Как же их reCAPTCHA понимает, что слово введено правильно? Создатели объясняют так. Пользователю выдают два слова: ОДНО - это уже проверенное на ошибки, а ВТОРОЕ - проверяемое. Если вы корректно ввели проверенное слово, то второе скорее всего также верно. (Ну плюс еще наверняка согласуемость с текстом, распознанным с помощью OCR.Так же они делают текстовые файлы из аудио и видео файлов. Результатом всего этого является Интернет архив книг и аудио, видео материалов а также архив старых изданий Нью-Йорк Таймс.
Получается, на сканирование всех этих книг пашим мы все! :) Гениально, Ватсон!!!

