Методика работы с патентными заявками
Я работаю переводчиком патентов много лет и накопил некоторый опыт в отношении автоматизации перевода заявок (не путать с машинным переводом). Думаю, настало время поделиться с коллегами моими наработками, а также ознакомиться с их достижениями. Надеюсь, предложенные мной подходы покажутся интересными переводчикам, специализирующимся в других областях техники, помимо патентов.
Итак, приступим. Прежде всего, патентный переводчик обычно получает оригинал заявки на бумаге. Таким образом, в процессе работы ему приходится смотреть то на лист, то на экран, что занимает время и повышает вероятность ошибок (в т.ч. пропусков, которыми грешит почти каждый из нас). Кроме того, как известно, технические тексты содержат довольно большое количество повторяющихся слов и словосочетаний, которые могут иметь либо терминологический, либо общелексический характер. Обычно авторы не стремятся придать своим творениям высокохудожественную форму, поэтому мало заботятся о разнообразии, что, естественно, нам только наруку. В отличие от литературных переводчиков, мы не обязаны делать «из говна конфетку», а в отношении патентов это просто нежелательно. Поэтому нам нужно переводить эти повторяющиеся формы единообразно. Но как это осуществить, когда таких форм в тексте видимо-невидимо, а сам текст имеет объем больше сотни страниц? Выписывать на бумажке образцы перевода? Нет, нет, и еще раз нет! Пора осваивать современные технологии.
1. Получение исходного текста в формате Word
В настоящее время многие заявители присылают тексты описаний в формате Word. Это избавляет от ненужной рутины. Если заявитель присылает pdf, этот файл можно открыть в FineReader. Если и его нет, можно обратиться к специальным сайтам, в частности, http://www.wipo.int/ipdl/en/, когда мы имеем дело с опубликованной заявкой. Эта страница позволяет скачать опубликованную заявку в виде архива, в котором каждая страница представляет собой графический файл в формате tif. Распаковав этот архив в отдельную папку, можно открыть все нужные страницы с помощью FineReader. Если заявка не опубликована, придется сканировать.
Рекомендую приобрести 10-ю версию FineReader, поскольку она очень хорошо распознает таблицы любой сложности. Кроме того, в этой версии очистка от мусора производится автоматически. Прежде, чем перейти к распознаванию текста, нужно очень внимательно просмотреть все страницы и отредактировать их следующим образом.
1) Удалить всяческую нумерацию строк и абзацев, если таковая присутствует в оригинале, а также номера страниц и колонтитулы.
2) Выявить математические или химические формулы и прочие графические объекты, и выделить их как рисунки.
3) Если на странице присутствуют только текст и таблицы, ничего выделять не нужно. FineReader уверенно распознает и то, и другое. Если же имеются также математические или иные формулы, придется отдельно выделять области текста, таблицы и рисунки.
После проведения распознавания всех страниц нужно отправить результаты в Word (соответствующей кнопкой). Примечание: не забудьте правильно установить язык распознавания, не ставьте «русско-английский»!
Полученный текстовый документ необходимо внимательно сверить бумажным оригиналом. Включите отображение «непечатных» символов. FineReader довольно уверенно распознает нумерованные и ненумерованные списки, которые нужно безжалостно удалить, поставив обычные цифры или какие-либо значки в последнем случае. Особое внимание следует обратить на специальные (математические) символы. FineReader, к сожалению, их не распознает.
Когда ошибки исправлены, можно преобразовать текст к нужному формату. На первый взгляд может показаться, что вышеописанная процедура весьма трудоемка и занимает много времени, особенно для тех, кто с компьютером на Вы. Однако, поверьте моему опыту, эти усилия окупятся сторицей, когда вы перейдете к следующему этапу. В итоге, время работы над переводом сокращается минимум в 1.5 раза, а качество перевода возрастает многократно. Кроме того, опыт работы с программами приходит по мере их использования, и очень скоро все это покажется не столь уж страшным.
2. Выявление повторяющихся конструкций
Это основной этап обработки текста, подлежащего переводу. Можно, конечно, пытаться находить повторяющиеся словосочетания вручную, по мере перевода, и пользоваться инструментом поиска и замены. Однако, такой подход не дает существенного ускорения и, кроме того, в глаза бросаются, в первую очередь, всяческие терминологические конструкции, тогда как зачастую встречаются самые обычные конструкции, не связанные с терминологией, но в большом количестве. Как узнать, что их много в тексте? Всё не проверишь! Поэтому нужно использовать специальный программы анализа текста. На сегодняшний день мне известны две программы, заслуживающие внимания, а именно, Concordance и TextAnalyst.
Что касается TextAnalyst, программа весьма мощная, но ее нужно долго осваивать, есть даже учебник по ней, и я ее в настоящее время не использую. Мне больше нравится Concordance. Краткое руководство по ее использованию я изложил отдельно.
К сожалению, эта программа не создана специально для переводчиков и поэтому не вполне отвечает всем требованиям, но все же с ее помощью можно довольно успешно обрабатывать не очень сложные тексты произвольного размера. Трудность ее использования заключается в том, что приходится думать, в какой последовательности заменять словосочетания их переводами. Если мы нашли, скажем, словосочетание из двух слов, нужно посмотреть, нет ли повторяющихся словосочетаний из большего количества слов, включающих найденное словосочетание. Если да, то нужно сначала заменить переводом большое, и лишь затем малое словосочетание. В противном случае, как понимаете, поиск в документе будет затруднен.
Чем скрупулезнее вы проведете анализ текста на предмет повторяющихся конструкций, тем проще вам будет потом. Поэтому не жалейте усилий! Исходя из своего опыта, могу сказать, что тексты различаются по сложности в отношении этого анализа. Простым текстом я называю такой текст, в котором доля слов, входящих в повторяющиеся словосочетания, невелика, но велико количество повторений этих словосочетаний. Было бы полезно иметь более точный математический критерий оценки сложности текста, но у меня не хватает сил этим заниматься. Может быть, кому-нибудь удастся такой критерий вывести.
Приведу пример, что получается в результате анализа текста.
Оригинал
In
step 1216, the mobile communications device is operated to use said dedicated communications
resource(s) to communicate via a second wireless communications link with said
second base station. For example, the mobile communications device may have
been assigned by the second base station an identifier to be used in wireless
communications with the second base station over the second communications
link. In some embodiments, some specific dedicated uplink segments may be
associated with a specific identifier and reserved for use by the mobile
communications device assigned by the base station to use that specific
identifier. In some embodiments, some dedicated uplink segments are assigned by
the base station on a segment by segment basis to mobile communications
devices. Step 1216 includes sub-steps 1218, 1220 and
Промежуточный текст
На этапе 1216, the мобильное
устройство связи задействуется для use said выделенный ресурс связи(s) to
communicate via a second беспроводная линия связи with said second базовая
станция. Например, the мобильное устройство связи may have been assigned by the
second базовая станция an идентификатор to be used in wireless communications
with the second базовая станция over the вторая линия связи. Согласно некоторым
вариантам осуществления, some specific выделенный сегмент восходящей линии связиs may be associated with a specific идентификатор and
reserved for use by the мобильное устройство связи assigned by the базовая
станция to use that specific идентификатор. Согласно некоторым вариантам
осуществления, some выделенный сегмент восходящей линии связиs
are assigned by the базовая станция on a segment by segment basis to мобильное
устройство связиs. Step 1216 включает в себя
sub-steps 1218, 1220 and
Не могу сказать, что анализ текста проведен весьма тщательно, поскольку в промежуточном тексте можно видеть непереведенные повторения, однако, в масштабе всего текста, а он довольно велик, общее количество переведенных слов весьма значительно.
3. Перевод
Теперь можно делать перевод на основе промежуточного текста. Я делаю это так. Располагаю два окна одно под другим: сверху – промежуточный текст, а снизу – окончательный перевод. Дальше беру целиком абзац промежуточного текста и копирую в окно перевода. Затем, в этом окне, заменяю непереведенные слова русскими, меняю слова местами, исправляю окончания, в общем, все это напоминает детский конструктор из кубиков. Раньше я просто писал перевод «на чистом листе» и вставлял переведенные куски из промежуточного текста. Однако практика показала, что такая методика может приводить к пропускам, особенно, если абзац большой или если рядом стоят похожие абзацы. Поэтому теперь я так не делаю. Кроме того, в технических текстах обычно встречаются весьма длинные и сложные с грамматической точки зрения предложения. Чтобы перевести такого монстра с чистого листа, нужно сначала полностью прочитать его, понять, перевести в уме и затем записать. При этом, естественно, могут возникать трудности перевода, над которыми задумываешься, теряя общий смысл фразы, после чего приходится опять смотреть на предложение в целом и т.д., пока, наконец, не забудешь перевести какое-нибудь слово. Приходится постоянно находиться в напряжении, что приводит к быстрому утомлению. Другое дело, когда ты копаешься в смеси русских и иностранных слов, можно потихоньку разбираться с отдельными кусками предложения, не опасаясь ничего потерять, таскать слова взад и вперед, стараясь улучшить удобочитаемость перевода, только нужно не забывать удалять уже ненужные иностранные слова. Работать можно с разной скоростью в зависимости от своего тонуса. Можно заменять сразу несколько слов подряд их переводом, а можно переводить слова по одному, если чувствуешь, что устал и внимание на нуле. Кроме того, при наличии в тексте идентичных фрагментов, а это случается нередко, удобно выделять их цветом. При окончательном переводе их можно копировать. Показываю, что получилось в результате перевода показанного абзаца.
Перевод
На этапе 1216, мобильное устройство
связи задействуется для использования выделенного(ых)
ресурса(ов) связи для связи по второй беспроводной
линии связи со второй базовой станцией. Например, вторая базовая станция может
назначить мобильному устройству связи идентификатор для использования в
беспроводной связи со второй базовой станцией по второй линии связи. Согласно
некоторым вариантам осуществления, некоторые конкретные выделенные сегменты
восходящей линии связи могут быть связаны с конкретным идентификатором и
зарезервированы для использования мобильным устройством связи, назначенным
базовой станцией для использования этого конкретного идентификатора. Согласно
некоторым вариантам осуществления, некоторые выделенные сегменты восходящей
линии связи назначаются базовой станцией на посегментной
основе мобильным устройствам связи. Этап 1216 включает в себя подэтапы 1218,
1220 и 1222. На подэтапе 1218, мобильное устройство связи использует выделенный
ресурс, например, назначенный сегмент управления хронированием восходящей линии
связи, для осуществления операции управления синхронизацией хронирования.
Например, мобильное устройство связи передает сигнализацию восходящей линии
связи в течение назначенного сегмента управления хронированием восходящей линии
связи, и вторая базовая станция принимает сигнализацию. Затем сигнал, принятый
от БС, используется для синхронизации хронирования между мобильным устройством
связи и второй базовой станцией. Операция синхронизации хронирования обычно
предусматривает регулировку хронирования передачи символов БТ на основании
сигнала, принятого от БС. Операция переходит от подэтапа 1218 к подэтапу 1220.
На подэтапе 1220, мобильное устройство связи задействуется для использования
выделенного ресурса, например, an назначенного сегмента управления мощностью
восходящей линии связи, для осуществления операции управления мощностью.
Например, мобильное устройство связи передает, с использованием назначенного
сегмента управления мощностью восходящей линии связи или другого сегмента,
сигнал на заданном уровне мощности, подлежащий приему и измерению второй
базовой станцией. Затем базовая станция передает сигналы регулировки мощности
на мобильное устройство связи, в соответствие с которыми мобильное устройство
регулирует свой уровень мощности передачи. Операция переходит от подэтапа 1220
к подэтапу 1222. на подэтапе 1222, мобильное устройство связи задействуется для
передачи пользовательских данных, например, голоса, текста или другой
информации, по второй линии связи, которая была установлена со второй базовой
станцией. Пользовательские данные могут передаваться с использованием одного
или нескольких выделенных сегментов трафика восходящей линии связи, которые
могли быть назначены второй базовой станцией мобильному устройству связи, и
мобильное устройство связи, в отношение которого ранее были произведены
синхронизация хронирования и управление мощностью на основании сигналов от
новой базовой станции, может передавать пользовательские данные надежным
образом по восходящей линии связи на вторую базовую станцию.
Может, он и не очень изысканный, но зато ничего не потеряно. Однако возможно, что в переведенном тексте сохранятся пропущенные слова на языке оригинала. Чтобы выловить их, преобразуем документ перевода в простой текстовый формат и открываем полученный текстовый файл все той же программой Concordance. Смотрим список слов и находим все нерусское. Далее решаем, что с этим делать.
В связи с вышесказанным, поделюсь общими соображениями относительно технического перевода и, в частности, патентов. Переводчик, конечно должен разбираться в той области техники, в которой он работает. Однако он редко бывает классным специалистом, и, кроме того, приходится работать в довольно обширной области, где просто невозможно все досконально понимать. Также нужно учитывать, кто пишет тексты. Далеко не все они в совершенстве владеют языком, на котором пишут. Именно в связи с этим полезен тот подход двухэтапного перевода, который я здесь пропагандирую. Наша задача – прежде всего разобраться в основных терминах, применяемых автором, а они, как раз, чаще всего и повторяются. Многие авторы пользуются распространенными языковыми штампами, которые можно однозначно перевести на русский, и которые также легко выловить с помощью программы анализа текста. После этого, нам остается навести порядок в грамматике, практически не вдаваясь в существо текста, тем более, что иногда приходится только догадываться, что хотел сказать автор. Как ни прискорбно это звучит, мы выдаем лишь более или менее правдоподобную версию, но желательно, чтобы она пристойно выглядела на русском языке. На ум приходят строки из знаменитого стихотворения "Джабберуоки" из «Алисы в зазеркалье»:
Twas brilling,
and the slithy toves
Did gyre and gimble in the wabe;
All mimsy were the borogoves,
And the mome raths outgrabe.
Главное – грамматика правильная! Это и позволило Маршаку перевести его:
Варкалось. Хлипкие шорьки
пырялись по мове,
и хрюкотали зелюки
как мюмзики в нове.
Похожие задачи приходится решать и нам, только, порой, с неправильной грамматикой!