Category: литература

Category was added automatically. Read all entries about "литература".

Butt-Head in South Park

Abbyy FineReader - унылое говно

Много лет назад пользовался то ли 3-й, то ли 4-й версией FineReader, теперь когда снова настала необходимость распознать текст, скачал 9-ю, естественно ломаную и бесплатную :) Казалось бы за столько лет следовало бы ожидать большой разницы между версиями и большого прогресса в распознавании. Но не тут-то было. Интерфейс действительно шагнул вперёд, хотя тоже нельзя сказать, что сильно далеко. Но практически все недостатки самого процесса распознавания, присущие старым версиям FineReader так и остались (сразу хочу заметить, что для распознавания использовались графические файлы отсканированных листов книги с достаточным качеством - 300 dpi, контрастный текст без повреждений):
  • программисты так и не научили FineReader понимать число 30 - программа упорно пишет его буквами З и О; у меня нет объяснения, почему эту проблему нельзя решить - хотя бы тупой автозаменой "ЗО " на "30 "
  • часто рядом с дефисом появляется вертикальная черта - откуда она берётся совершенно непонятно
  • на картинках выделяются якобы текстовые области там, где нет никаких намёков на то, что это текст; при этом программа тратит кучу времени "рассматривая" картинки и пытаясь отыскать в них эти самые области
  • ужасное распознавание на сгибах страниц, там где строка слегка загибается - информации для распознавания более чем достаточно, но похоже на то, что алгоритма коррекции в программе нет и слегка повернутые буквы распознаются неправильно
  • очень много переносов остаются в тексте в виде дефисов, несмотря на то, что в FineReader встроены словари, с которыми должна была бы сверяться программа
  • иногда при переносе слов программа сама умудряется вставлять буквы, например вместо разбитого на две строки слова "потреблять" в итоговом тексте оказалось "потреб-блять", хотя в исходнике сдвоенных букв не было, так же как и нецензурной лексики ;)
  • на развороте из двух страниц блоки для распознавания могут быть пронумерованы вперемешку - сначала блок с левой страницы, потом с правой, потом снова с левой
  • программа в авторежиме иногда "ругается" на стопроцентно русские тексты как на неправильные (просит проверить язык вручную)
  • FineReader совершенно не понимает сносок и обрабатывает как придётся - то определяет для них отдельный блок, то распознает вместе со всем текстом страницы
  • странно, что до сих пор не решена проблема с пагинацией - уже пора бы придумать алгоритм, который при сканировании книг позволил бы отсекать номера страниц на листах, которые потом в готовом сплошном тексте надо удалять вручную
  • даже когда есть чёткая ровная колонка текста блок для распознавания может быть выделен не как ровный, а состоящий из множества ломаных линий - иногда просто приходится удалять определённый автоматом блок и рисовать новый вручную
  • то, в каком виде отсканированный документ передаётся в Word (форматирование абзацев, стилей) вообще не поддаётся описанию средствами нормативной лексики - легче сразу сохранить файл в виде плоского текста, чтобы избавиться от всего форматирования
  • вообще чтобы меньше мучаться с готовым уже впоследствии текстом приходится перед распознаванием делать много ручной работы
  • про скорость работы программы тоже ничего хорошего сказать нельзя - хотя кто знает, возможно на 300-процессорном суперкомпьютере она работает быстро :)

    После всего этого остаётся вопрос - а за что вообще платят больше 100 долларов (профессиональная версия) лицензионные пользователи этой программы? Я бы не дал за такую и 10 долларов. Тем более обидно за тех, кто платит за обновления, не получая взамен практически ничего нового - основная функция программы, распознавание текста, застряла на уровне 1990-х годов. Короче, все рекламные тексты от Abbyy вроде "идеальное решение", "высочайший уровень точности распознавания", "быстро и точно переводит" - всего лишь рекламные тексты, а не действительность :(
  • GooooooodLucky

    Впечатления от Беларуси (4): Беларуская мова

    Считаю, что лучшие сувениры, которые я привёз из Беларуси, это книги на белорусском языке. При первом ознакомлении с текстами белорусский язык вызывает улыбку :D Поначалу он кажется смесью русского и украинского языков, на самом же деле всё не так просто. После короткой практики и привыкания читать можно без проблем - для носителей русского языка лексика белорусского языка будет понятна примерно на 90-95%, а знание украинского помогает довести это число почти до 99%. А вот чтобы говорить на белорусском, надо учить грамматику. Кстати, русские шовинисты, ведущие дискуссии с украинцами на языковые темы, часто приводят аргумент, мол у всех народов языки и только у украинцев мова. Так вот - в Беларуси тоже мова! (ужасно, да? ;))

    Сейчас на белорусском языке почти не разговаривают - за три дня пребывания в Беларуси слышал только отдельные фразы вроде калі ласка, но ни разу не слышал чтобы люди общались между собой по беларускі; по телевизору видел передачи только на русском; в киосках Минска нашёл только одну газету на национальном языке - "Звязда" (парадокс, но в провинции с этим ещё хуже - вся пресса и книги на русском); в книжных супермаркетах Минска есть довольно большой выбор книг на родном языке, но это в основном либо детская литература, либо произведения белорусских классиков, либо книги для учебного процесса - не больше 2-3% от общего ассортимента. Себе купил белорусско-русский словарь, красивенный альбом с видами Беларуси с высоты птичьего полёта, сборник сонетов Янки Купалы с переводом на 7 языков и детскую книжку Кастуся Жука :) Детские стихи в качестве первых "уроков" языка пошли на ура, правда, некоторые слова пришлось смотреть в словаре. Подписи в альбоме старался читать на белорусском, но если что - можно было подсмотреть русский перевод. Сложнее всего с поэзией - много непонятных оборотов (видимо фразеология, для понимания которой нужно быть носителем языка), поэтому читал параллельно с переводом на украинский и русский. Также прослушал на белорусском аудиокнигу - почти всё понятно (тем более, что я был знаком с текстом) и со временем даже перестаёшь ощущаешь "иностранность".

    Белорусский язык нельзя назвать очень красивым, но симпатичным назвать можно ;) Безусловно это не диалект русского, а настоящий язык со своими особенностями орфографии, морфологии и т.д. Алфавит белорусского языка очень похож на русский и украинский; из существенных отличий - нет буквы щ (для белорусской фонетики вообще характерно некоторое сглаживание/смягчение, поэтому вместо щ используется шч), но есть буква ў - нечто среднее между у и в (можно вспомнить про взаимозаменяемость этих букв в украинском языке - щось накшталт Україна/Вкраїна). О произношении: если для украинского языка характерен принцип "как пишется, так и произносится", то для белорусского скорее наоборот - "как произносится, так и пишется". Поэтому многие слова в печатном виде похожи на запись фонетической транскрипции обычных русских или украинских слов, адаптированных под белорусский (рус. дядька - бел. дзядзька, укр. подяка - бел. падзяка). В белорусском языке есть аналог суржика, только называется он трасянка (русская "Википедия" утверждает, что самым известным "спикером" суржика является Верка Сердючка, а трасянка представлена ещё на более высоком уровне - самим А.Г.Лукашенко).

    К сожалению, признание в 1995 году русского языка вторым официальным чуть было не уничтожило национальный язык. Белорусский язык был практически вычеркнут государством. Сейчас власть опомнилась и началась постепенная "белоруссизация" - в этом году даже приняты новые правила орфографии и пунктуации. Сейчас больше половины вывесок на магазинах в Минске - на белорусском языке. На нём же все таблички с названиями улиц. Также на белорусском объявляют станции в поездах метро. Если не считать ещё табличек на государственных учреждениях, то пока что этим использование родного языка и ограничивается. В рекламных материалах национальный язык, в отличие от Украины, не обязателен, поэтому рекламодатели за редким исключением предпочитают русский. В общем ситуация с национальным языком довольно сложная. Тем не менее, шансы выжить у белорусского языка есть. Несмотря на низкий уровень использования, родным его до сих пор считают почти три четверти населения. А поворот Бацьки к Западу передом, к Россией задом вероятно будет способствовать укреплению национального самосознания и постепенному нарастанию препятствования замене белорусского языка на русский.

    Laguna Beach

    Александр Ена, Андрей Ена «Лоция Крыма»

    «Лучшая книга про Крым!», «Это должен прочитать каждый уважающий себя любитель Крыма» «Два больших пальца вверх!» - примерно такие отзывы должны были быть на этой книге, если бы она вышла в каком-нибудь иностранном издательстве. Но книга пока что вышла только в Симферополе, что нисколько не умаляет её достоинств. Выбирая среди массы путеводителей и обзоров по Крыму, коих навалом в любом крымском книжном магазине или на лотках, я выбрал именно эту книгу и не ошибся. Неординарность и отличие книги от других состоят в том, что, во-первых, она описывает не самые популярные туристические достопримечательности на ЮБК, а весь берег Крыма, начиная от перешейка, затем против часовой стрелки, и им же и заканчивая (полное название книги - «Лоция Крыма. Научно-популярный очерк-путеводитель по берегам полуострова»), а во-вторых, подробное описание особенностей ландшафта береговой линии и природы прибрежных территорий сопровождается массой действительно интересных фактов из истории, географии, ботаники, минералогии и т.д. Книга написана знатоками своего дела, исследующими Крым на практике; несмотря на свою учёность (оба автора - кандидаты наук), текст написан вовсе не сухим научным стилем, а вполне живо и увлекательно. Думаю, всем, кто неравнодушен к Крыму, «Лоция» должна понравиться. Книга свежая (2008) и её ещё можно купить в крымских магазинах или через интернет. Цена, правда, кусается (я покупал в Керчи за 59 грн) - книга издана небольшим тиражом (2000 экз.), но зато на хорошей бумаге (глаза ломать не придётся), и вклейка с цветными картинками имеется :)
    Sad

    2008: Окончание земной Одиссеи Артура Кларка

    На 91-м году жизни умер британский писатель и футурист Артур Кларк - человек, о котором действительно можно сказать - Глыба. Я не поклонник фантастики, во всяком случае не горячий поклонник. Но если уж и читал фантастику, то научную. Не огромные тома популярных трилогий, упоминание которых приводит в трепет фанатов фантастики, а чаще - небольшие рассказы и не самые популярные произведения (конечно с самыми популярными произведениями фантастов многие всё равно знакомы по экранизациям). И надо не забывать также, что некоторые научные фантасты выходили далеко за рамки своего жанра, например, Айзек Азимов писал потрясающие образовательные книги о науке. А из творчества Кларка мне почему-то больше всего запомнился прочитанный в детстве "Остров дельфинов" - книга вовсе не о далеких просторах космоса, где обычно развиваются события фантастических романов, а самая что ни на есть земная книга. Про давно прочитанные произведения обычно мало что помнишь, чаще всего только общую атмосферу книги - то впечатление, которое получил от её чтения. Помню, что книга была доброй, познавательной и интересной - по-моему, это самые лучшие качества, которые могут быть у книги...

    ...Одним сэром в Британии стало меньше, но писатель-фантаст Артур Кларк останется миру до его последних дней...
    Kashtan b&w

    Виктор Кузнецов "Есенин. Казнь после убийства"

    (Издательский дом "Нева". - СПб, М., 2006)

    Про судьбу и загадочную смерть Есенина в книжных магазинах всегда можно что-нибудь найти, но именно эта книга удостоилась моего внимания. В ней автор собрал множество фактов и свидетельств из тех, которые можно было разыскать (а вот документы спецслужб, которые могут пролить свет на последние дни Есенина, до сих пор недоступны, несмотря на истечение срока секретности). Нельзя сказать, что цель книги - доказать, что Есенин не был самоубийцей; это и так давно всем ясно. Факт убийства доказывает хотя бы то, что 29 декабря 1925 по недосмотру органов в ленинградской газете вышла публикация Бориса Лавренёва о смерти Есенина под названием "Казнённый дегенератами". Так как убийство Есенина было случайным, то миф о самоубийстве сочинялся "на ходу", задним числом, поэтому совершенно характерным для российских спецслужб (кстати, всех времён) можно назвать тот факт, что многие детали при сокрытии истинных обстоятельств были упущены и многие следы как следует не "заметены". Следов этих очень много и все они не стыкуются с официальной (до сих пор неизменной) версией гибели поэта.

    Поэтому сегодня более актуальной по делу Есенина является проблема расследования реальных обстоятельств смерти поэта. И здесь книга даёт ответы на многие вопросы. Ведь даже спустя многие десятилетия обнаруживаются новые факты. В частности автор проанализировал обыкновенную служебную отчётность, которая могла быть связана с пребыванием Есенина в Ленинграде. И доказал, что Есенин в конце декабря 1925 года не проживал в "Англетере". Анализ других фактов даёт основания считать, что Есенин был убит в соседнем доме, где находилась следственная тюрьма ГПУ, а потом его тело было перетащили (возможно через подземные ходы) в "Англетер", где инсценировали самоповешение. Практически все участники событий, по мнению автора, были либо чекистами либо подставными лицами. Была сфальсифицирована масса документов, в т.ч. выводы судмедэкспертизы, которые подписаны именем человека, который даже не догадывался о своём "участии" в этом "спектакле". Более того - и графологическая и стилистическая экспертиза доказала, что якобы предсмертный стих "До свиданья, мой друг, до свиданья" не может принадлежать перу Есенина. В завершении книги автор называет имена убийцы и его соучастника. Правда, как отмечает сам автор, выводы о результатах расследования в нынешнее время уже мало кого интересуют и не становятся сенсацией.

    Честно говоря, не все выводы автора относительно событий и действующих лиц мне показались однозначными, но составить "туманную" картину убийства Есенина можно. Будет ли разгадана загадка до конца - зависит во многом от того, какие ещё свидетельства удастся добыть исследователям. В любом случае после прочтения книги возникает вопрос, насколько вообще можно считать достоверными известные нам факты из жизни поэта? Ведь у Есенина было множество завистников и ненавистников, многие из которых приложились после его смерти к написанию статей и книг о нём. И само собой разумеется, что многие тексты были "подогнаны" так, чтобы логически привести череду событий жизни Есенина к официальной версии его трагического финала - самоубийству. Поэтому даже если когда-нибудь и будет поставлена точка в деле об убийстве Есенина, то узнать каким был Есенин на самом деле, наверное уже не суждено никому.

    P.S. Частично текст книги (по всей видимости более ранняя редакция) доступен на сайте http://esenin.niv.ru/
    GooooooodLucky

    Лучше скажи мало, но хорошо

    Намедни ознакомился со сборником произведений небезызвестного Козьмы Пруткова. Честно говоря, многое из прутковского уже устарело, во всяком случае мне показалось довольно сложным для современного восприятия. Стоит напомнить, что Козьма Прутков – эдакий виртуальный писатель, наделенный своими создателями набором негативных черт характера (тщеславие, самовлюбленность и т.п.), но вовсе не лишенный таланта и житейской мудрости, в общем такой себе Гомер Симпсон или робот Бендер XIX века :)

    Наследие великого и непревзойденного (как бы он сам себя назвал) Козьмы составляют разные литературные жанры, но более всего он известен афоризмами. Часть из них настолько прочно вошла в живой язык, что мало кто вспомнит их происхождение: «Бди!», «Зри в корень», «Нельзя объять необъятное» etc. Многие афоризмы сборника показались мне неактуальными для современного читателя, многие просто пришлись не по моему литературному вкусу, но творения минимальных форм (а я приверженец минимализма) в большинстве своем оказались неподвластными времени и останутся в веках. «Лучше скажи мало, но хорошо» (из него же) – этим всё сказано.

    Не растравляй раны ближнего; страждущему предлагай бальзам. Копая другому яму, сам в нее попадешь.

    Единожды солгавши, кто тебе поверит?

    Если хочешь быть счастливым, будь им.

    Человек раздвоен снизу, а не сверху, для того, что две опоры надежнее одной.

    Человеку даны руки на тот конец, дабы, принимая одною, он другою раздавал.

    Что имеем – не храним; потерявши, плачем.

    Глядя на мир, нельзя не удивляться.

    Усердие все превозмагает!

    Гони любовь хоть в дверь, она влетит в окно.

    Трудись как муравей, если хочешь быть уподобен пчеле.

    Говоря с хитрецом, взвешивай ответ свой.

    Купи прежде картину, а после рамку!


    И не могу накануне выборов воздержаться от публикации диалога, одинаково актуального как в XIX, так и в XXI веке:

    – Вы кто такой?
    – Депутат.
    – Стыдитесь! Здоровый человек! Лучше бы работать шли.


    Гениально!
    Hippo

    Эволюция перевода собственных названий в украинской версии "Симпсонов"

    Пиво Duff (перевести можно как подделка или надувательство) – в самых первых сериях называлось «Погань», чуть позже – «Рыгань», ну а потом наверное маркетинговая служба пива «Рогань» наконец отреагировала :) и любимое пиво Гомера стали переводить как «Кнур».

    Клоуна Krusty поначалу переводили как Херасти (сейчас как раз по второму кругу на М1 идут те первые серии), а потом решили оставить ему оригинальное имя Красти (тем более, что в последующих сериях выясняется, что это прозвище клоуна происходит от его еврейской фамилии Крустовски).

    А больше всего мне нравится что Itchy&Scratchy перевели как Чух і Сверблячка. Довольно близкий по смыслу перевод получился :)
    Hippo

    Мой Top-33 персонажей "The Simpsons"


    1. Гомер Джей Симпсон – отец семейства
    2. Бартоломью Дж. "Барт" Симпсон – главный проказник
    3. Чарльз Монтгомери "Монти" Бёрнс – бессмертный владелец АЭС
    4. Мэрджори "Мардж" Симпсон (Бувье) – заботливая жена и мама
    5. Лиса Мари Симпсон – отличница, вегетарианка, комсомолка
    6. "Клэнси" Вигам – шеф полиции
    7. Мо Сызляк – хозяин бара
    8. Красти (Крустофски) – клоун, кумир Барта
    9. Сеймур Скиннер – директор школы
    10. Нэд Фландерс – сосед Симпсонов, религиозный фанатик
    11. Барни Гамбл – завсегдатай бара и друг Гомера, буэээ!
    12. Смизерс Вэйлон – личный льстец мистера Бёрнса
    13. Нельсон Мюнц – хулиган, хааа-хааа!
    14. Отто Мэнн – безбашенный водитель школьного автобуса
    15. Патти и Сельма Бувье – волосатоногие сестры Мардж
    16. Милхаус Ван Гутен – лучший друг Барта
    17. Апу Нахасапеемапетилон – владелец магазина
    18. Лайонел Гудзь – предприимчивый адвокат
    19. Кент Брокман – звезда теленовостей Спрингфилда
    20. Ральф Вигам – сын шефа полиции
    21. Абрахам "Эйб" Симпсон – дедуля Барта и Лисы
    22. Джо Квимби – коррумпированный мэр Спрингфилда
    23. Маргарет "Мэгги" Симпсон – совсем дитя
    24. Itchy and Scratchy (в укр. переводе – Чух і Сверблячка)
    25. Канг и Кодос – слюнявые инопланетяне
    26. Шерри и Терри – близняшки из класса Барта
    27. Тодд и Род Фландерсы – дети Нэда
    28. Карл и Ленни – коллеги Гомера, один черный, другой белый
    29. Кирк и Луанн Ван Гутены – родители Милхауза
    30. Эдна Крабапль – училка Барта, любовница Скиннера
    31. Тимоти Лавджой – пастор
    32. Маленький Помощник Санты – собака Симпсонов
    33. Билл Клинтон – президент

    Теперь по этому списку можно составлять мой психологический портрет :-)

    И еще. На днях в новостях прошла информация, что эксперты британского журнала Men's Health назвали Гомера Симпсона философом десятилетия. По словам редактора журнала Моргана Риса, Гомер "научил целое поколение, как принять на себя ответственность отцовства в современных условиях и выиграть". "Хотя и не всегда с честью", — добавил эксперт. Супруга мультипликационного героя, Мардж, редко жалуется на него. Хотя однажды она призналась, что Гомер "забывает о днях рождения, годовщинах, праздниках (религиозных и светских), жует с открытым ртом, торчит в сомнительном баре с бездельниками и пошляками, сморкается в полотенца и кладет их обратно, а также чешется ключами". Тем не менее, он души не чает в своей семье и сделает почти все, чтобы доказать это — даже если ему придется выставить себя дураком.