"Цифровой журнал «Компьютерра» № 2" - читать интересную книгу автора (Компьютерра)

Сергей Голубицкий Голубятня: Файнридер 10

Начну с таки-сложившейся спонтанно неформальной минирубрики, посвященной ужасам мобилопов. Помните один из свежих завесов в копилку мерзостей — про «Северо-западный Мегафон» в Ивановской области? При покупке в салоне связи тарифа «Мегафон-Модем» в пакет как бы невзначай автоматически включается целый букет потных услуг типа «Замени гудок», «Живой баланс», «Всегда на связи», которые, если вы почему-то забудете их отключить хитрозадой цепочкой команд (с какой, собственно, стати потребитель должен помнить всю эту хрень?!), начнут ежемесячно отсасывать по 60, 29 и 10 рублей соответственно (это помимо абонентской платы в 69 рублей). Если вы, не приведи господи, покинете Ивановскую область, то отписаться от абонирования будет сложно. Жутко сложно.

Насколько жутко — на прошлой неделе не знал, потому как борьба была в разгаре. В ещё пущем разгаре она и сегодня, однако от страдалицы, моей доброй знакомой, поступили новые подробности, коими делюсь, как обещал, с читателями.

Вот вам крик души в назидание: «В московском офисе ничего сделать не могут, так как номер не из их базы данных, лишь предлагают звонить в офис Северо-Западного региона. Я за свои деньги звоню туда, слушаю рекламу около 10 минут. Они говорят, нужно подъехать для расторжения договора. Я, разумеется, сообщаю, что в Иваново я с этой целью не поеду (до этого объясняла, что нахожусь в Москве и номер мне не нужен, так как из региона уехала). Оператор проверяет номер: он временно заблокирован (это я делала через сайт). Тогда они предлагают на выбор: 1) дождаться автоматической разблокировки; 2) позвонить им (напоминаю, я с Ивановской областью общаюсь) и заказать (!) смену тарифа на тариф без абонентской платы; 3) смена произойдёт 1 числа следующего месяца (допустим, 1 декабря), за это время мне будет всё равно начислена абонентская плата по дате покупки — 16 ноября; 4) после этого нужно будет позвонить им ещё раз (!) и отменить автоматически добавленные при смене тарифа услуги „живой гудок“ и прочее; 5) далее через три месяца неиспользования номер без абонентской платы автоматически блокируется».

Жертва мегафоновского беспредела в настоящий момент ещё пребывает в раздумьях: какой из дегенеративных путей задействовать, чтобы избавиться от баблососущего опсоса малой кровью. Если бы мы жили в нормальной стране, то рекомендация были бы однозначная: подавать в суд на «Мегафон» (федеральный, а не ивановский, разумеется) и поскорее, потому что творимое безобразие по, скажем, американским меркам — чистейшей воды harassment, то есть не просто нарушение всех мыслимых прав потребителя, но ещё и исполненное в какой-то изысканно-издевательской форме. Однако мы не живем в нормальной стране, поэтому судебный вариант отпадает за смехотворностью.

Не удивлюсь, если окажется, что абсолютно все действия ивановского подразделения «Мегафона» в юридическом отношении полностью оправданы. В смысле, что все эти измывательства четко оговорены в пользовательском соглашении (не напрасно же, в конце-то концов, изобретали все эти сноски петитом под галочками, разворачивающие на 180 градусов смысл объяв, сделанных лошадиными буквами на фронтоне рекламных буклетов!). А як же? Не будь лохом, читай внимательно договор! На подобных подлянках строится бизнес всех молибопов планеты без исключения.

Собственно, с самого начала я и говорил, что мобилопам, равно как и корсарам от фармакологии, можно предъявить исключительно морально-нравственные претензии, ибо с буквой закона у них, как правило, всё в порядке: не случайно армии юристов и их детей трудятся, не покладая рук и изобретая всё новые и новые формы иезуитского обмана потребителей (те самые сноски с петитами).

Лично я ни секунды не сомневаюсь, что в «ивановской истории» жертве не останется ничего лучшего, как согласиться на перректальное удаление гланд с переходом на тариф без абонентской платы (см. выше), предложенное ивановскими кудесниками баблососания. Нам же с нашими жалкими правами и возможностями остается лишь рассказать о «героях нации и их подвигах»: в надежде, что, может, в следующий раз кто-то из читателей лишний раз задумается, а стоит ли вообще заводить мобильную трубку?

Что ж — будем рассказывать. Регулярно и методично, каждую неделю, до тех пор, пока либо мобилоп не одумается, либо тариф сам по себе не засохнет и не отвалится.

Теперь переходим к главной теме сегодняшней «Голубятни». Читатели наверняка в курсе, что в октябре месяце увидел свет долгожданный десятый релиз пакета OCR от Abbyy FineReader. Почему долгожданный? По многим причинам. Во-первых, на подготовку «десятки» у Abbyy ушёл не привычный год, а целых два. Во-вторых, «Файнридер» — это программа, банально находящаяся вне конкуренции. Не потому, что конкуренты плохие, а потому что их нет в природе. Где-то в неведомых далях носятся слухи про Iris и ещё пару-тройку летучих голландцев из категории оптического распознания символов, но все эти альтернативы настолько хлипкие, настолько непонятно к чему пришиваемые, а на поверку — ещё и настолько убогие (разумеется, лично ковырял и пробовал — и 10 лет назад, и 5, и минувшим летом), что можно смело говорить об эксклюзивности и уникальности разработки наших соотечественников.

В-третьих, девятая версия «Файнридера», как и восьмая, седьмая, шестая и… и… и… далее — в глубину веков, при всей своей добротности, надежности, в общем и целом высоком качестве распознавания того, что не очень сложно распознать, всегда оставляла сильно желать лучшего по части работы со сложными текстами: встроенными таблицами, надписями на картинках, рукописями, мудреными формулярами и — на мой взгляд, самое главное! — фотографиями документов, снятыми не могучими «зеркалками», а махровыми мыльницами, которыми пользуется 99 % человечества.

Со всеми этими слабинками жить удавалось вполне припеваючи, так что к «восьмёрке» и «девятке» «Файнридера», с помощью которых перегнал по меньшей мере три сотни тысяч (!) книжных страниц в электронный вид (я читаю только электронные книги — бумажные люблю лишь держать-крутить в руках и… нюхать! Да-да, есть у меня такая персональная токсикомания), испытывал давнюю и стойкую приязнь.

Правда, рассказом о двух предыдущих — на мой взгляд, вполне себе удачных — версиях «Файнридера» я бессовестно манкировал, ибо радикальных улучшений и без того пристойного кода не обнаружил. Отсутствие этих улучшений, кстати, надолго отвратило от тестирования программ Abbyy Антонелло, который для себя лично твёрдо решил, что качественное развитие «распознавалки» закончилось где-то на 6-й версии, после которой каждый новый релиз привносил нового лишь по линии рюшечек и шашечек.

Я же, будучи человеком не столько дотошным, сколько романтичным, в чудеса верящим, исправно устанавливал и тестировал всякую новую версию «Файнридера», констатировал её «нехужесть» относительно версии предыдущей и на том успокаивался до лучших времён.

С «десяткой», однако, ситуация изменилась. То ли извелся в ожидании, то ли пресс-релиз Abbyy подогрел: «По сравнению с ABBYY FineReader 9.0 в новой версии программы существенно улучшено качество распознавания документов со сложной структурой — таблиц, контрактов, журнальных статей с текстами поверх картинок, графиками и рисунками. Гораздо проще считываются и переводятся в нужные форматы изображения низкого качества — факсы и снимки, сделанные с помощью фотокамеры мобильного телефона. А документы, снятые обычными цифровыми фотоаппаратами, ABBYY FineReader 10 преобразует на 30 % точнее предыдущей версии программы. В десятой версии увеличено число языков распознавания — теперь их стало 186. При этом качество „понимания“ текстов на азиатских языках улучшилось на 30 %, а на европейских — на 20 %».

Такое впечатление, что разработчики буквально мысли мои читали, внося улучшения в код «десятки» (сравните текст пресс-релиза с моим списком недоработок страницей выше). Добавьте сюда анонс улучшения распознавания формата djvu, в котором у меня скопилось огромное количество электронных книг, и вы поймете трепетное нетерпение, с которым я взялся за тестирование FineReader 10.

День, когда Abbyy представляла новый релиз своего продукта журналистам, я отметил ударным сбором винограда на своей молдавской фазенде, а потому официально-именного вручения коробочной версии не состоялось. Но это, знаете ли, и замечательно (как в том анекдоте про чукчу: «Жена, цяйника закипел?» — «Не закипел!» — «Ну и халасо, ста не закипел!»), потому как по случаю могу позволить себе большую вольность (не помню, делился ли публично своими морально-этическими принципами, которых придерживаюсь беспрекословно в сношениях с разработчиками и производителями: если мне передают программу или железяку на тестирование официально и по собственной доброй воле, я пишу только положительные отзывы, в случае же отрицательных впечатлений просто вообще ничего не пишу).

Короче говоря, десятый релиз FineReader я грубо конфисковал в редакции (коробка лежала безхозно на одном из ничейных столов), установил, а далее — предоставляю читателю результаты тестирования в режиме немого кино: никаких комментариев, никаких наводок, подводок, намеков и прочего психологического давления. Алгоритм простой: вот фотография или скриншот исходного изображения с текстом, вот — результат его оптической обработки «Файнридером». Дывытэся сами и, как говорят наши незалежно гриппующие братья по разуму, багатэйте думкою!

Самое пикантное, что на момент написания этого слова («пикантное») — я сам ещё не знаю, какие результаты продемонстрирует «Файнридер»! Ни разу даже ещё не запускал программу, лишь установил и зарегистрировал. Что ж, тем объективнее будет наше немое кино. Тем ценнее окажется обнажёнка фактов для потенциальных раздумщиков («Апгрейдиться или не апгрейдиться?»). Итак, начнём.

Первый OCR — анкета-заявление для получения загранпаспорта, сфотографированная со стенда камерой коммуникатора HTC Touch HD. Камера хоть и 5-мегапиксельная, но поганая-препоганая, так что у «Файнридера» есть все шансы продемонстрировать заявленное улучшение оптического распознавания текста, снятого некошерной мыльницей. Вот сама анкета:



Вот OCR, выполненный FineReader 10:



Меня так и распирают эмоции — до того хочется прокомментировать полученный результат, но раз обещал кино немое — обещание сдержу и буду молчать аки сом.

Сказать, что фотография анкеты-заявления чудовищная по качеству, значит ничего не сказать. Что ж, облегчим «Файнридеру» задачу и подберём картинку полегче, да хоть бы такую — с реквизитами УФМС:



Фотография по-прежнему жуткая, к тому же ещё и без фокуса да мутная, но зато — без таблиц и сложной структуры. «Файнридер 10» оценил упрощение структуры и распознал фотографию раза в четыре быстрее, чем предыдущую:



Наконец, последний тест — скармливаю «десятке» сложную дежавюшку (текст в формате djvu):



Скан книги выполнен довольно коряво, к тому же и текст — не подарок: дореволюционная русская орфография. «Файнридер» выдал такой результат:



Нет, больше не могу и посылаю Великого Немого по боку! Как хотите, но я лично перехожу на «десятку» безоговорочно, читателям же даю единственную рекомендацию (ну не слепые же тут дети собрались!): основное требование к фотографированию мыльницами — следите за фокусом! Судя по всему «десятке» никакие сложные структуры расположения текста, блики и вспышки не страшны так, как мутное двоящееся изображение. С последним он однозначно не справляется. Что ж — определяется фронт работ для FineReader 11!