Методика работы с патентными заявками

Я работаю переводчиком патентов много лет и накопил некоторый опыт в отношении автоматизации перевода заявок (не путать с машинным переводом). Думаю, настало время поделиться с коллегами моими наработками, а также ознакомиться с их достижениями. Надеюсь, предложенные мной подходы покажутся интересными переводчикам, специализирующимся в других областях техники, помимо патентов.

Итак, приступим. Прежде всего, патентный переводчик обычно получает оригинал заявки на бумаге. Таким образом, в процессе работы ему приходится смотреть то на лист, то на экран, что занимает время и повышает вероятность ошибок (в т.ч. пропусков, которыми грешит почти каждый из нас). Кроме того, как известно, технические тексты содержат довольно большое количество повторяющихся слов и словосочетаний, которые могут иметь либо терминологический, либо общелексический характер. Обычно авторы не стремятся придать своим творениям высокохудожественную форму, поэтому мало заботятся о разнообразии, что, естественно, нам только наруку. В отличие от литературных переводчиков, мы не обязаны делать «из говна конфетку», а в отношении патентов это просто нежелательно. Поэтому нам нужно переводить эти повторяющиеся формы единообразно. Но как это осуществить, когда таких форм в тексте видимо-невидимо, а сам текст имеет объем больше сотни страниц? Выписывать на бумажке образцы перевода? Нет, нет, и еще раз нет! Пора осваивать современные технологии.

1. Получение исходного текста в формате Word

В настоящее время многие заявители присылают тексты описаний в формате Word. Это избавляет от ненужной рутины. Если заявитель присылает pdf, этот файл можно открыть в FineReader. Если и его нет, можно обратиться к специальным сайтам, в частности, http://www.wipo.int/ipdl/en/, когда мы имеем дело с опубликованной заявкой. Эта страница позволяет скачать опубликованную заявку в виде архива, в котором каждая страница представляет собой графический файл в формате tif. Распаковав этот архив в отдельную папку, можно открыть все нужные страницы с помощью FineReader. Если заявка не опубликована, придется сканировать.

Рекомендую приобрести 10-ю версию FineReader, поскольку она очень хорошо распознает таблицы любой сложности. Кроме того, в этой версии очистка от мусора производится автоматически. Прежде, чем перейти к распознаванию текста, нужно очень внимательно просмотреть все страницы и отредактировать их следующим образом.

1) Удалить всяческую нумерацию строк и абзацев, если таковая присутствует в оригинале, а также номера страниц и колонтитулы.

2) Выявить математические или химические формулы и прочие графические объекты, и выделить их как рисунки.

3) Если на странице присутствуют только текст и таблицы, ничего выделять не нужно. FineReader уверенно распознает и то, и другое. Если же имеются также математические или иные формулы, придется отдельно выделять области текста, таблицы и рисунки.

После проведения распознавания всех страниц нужно отправить результаты в Word (соответствующей кнопкой). Примечание: не забудьте правильно установить язык распознавания, не ставьте «русско-английский»!

Полученный текстовый документ необходимо внимательно сверить бумажным оригиналом. Включите отображение «непечатных» символов. FineReader довольно уверенно распознает нумерованные и ненумерованные списки, которые нужно безжалостно удалить, поставив обычные цифры или какие-либо значки в последнем случае. Особое внимание следует обратить на специальные (математические) символы. FineReader, к сожалению, их не распознает.

Когда ошибки исправлены, можно преобразовать текст к нужному формату. На первый взгляд может показаться, что вышеописанная процедура весьма трудоемка и занимает много времени, особенно для тех, кто с компьютером на Вы. Однако, поверьте моему опыту, эти усилия окупятся сторицей, когда вы перейдете к следующему этапу. В итоге, время работы над переводом сокращается минимум в 1.5 раза, а качество перевода возрастает многократно. Кроме того, опыт работы с программами приходит по мере их использования, и очень скоро все это покажется не столь уж страшным.

2. Выявление повторяющихся конструкций

Это основной этап обработки текста, подлежащего переводу. Можно, конечно, пытаться находить повторяющиеся словосочетания вручную, по мере перевода, и пользоваться инструментом поиска и замены. Однако, такой подход не дает существенного ускорения и, кроме того, в глаза бросаются, в первую очередь, всяческие терминологические конструкции, тогда как зачастую встречаются самые обычные конструкции, не связанные с терминологией, но в большом количестве. Как узнать, что их много в тексте? Всё не проверишь! Поэтому нужно использовать специальный программы анализа текста. На сегодняшний день мне известны две программы, заслуживающие внимания, а именно, Concordance и TextAnalyst.

Что касается TextAnalyst, программа весьма мощная, но ее нужно долго осваивать, есть даже учебник по ней, и я ее в настоящее время не использую. Мне больше нравится Concordance. Краткое руководство по ее использованию я изложил отдельно.

К сожалению, эта программа не создана специально для переводчиков и поэтому не вполне отвечает всем требованиям, но все же с ее помощью можно довольно успешно обрабатывать не очень сложные тексты произвольного размера. Трудность ее использования заключается в том, что приходится думать, в какой последовательности заменять словосочетания их переводами. Если мы нашли, скажем, словосочетание из двух слов, нужно посмотреть, нет ли повторяющихся словосочетаний из большего количества слов, включающих найденное словосочетание. Если да, то нужно сначала заменить переводом большое, и лишь затем малое словосочетание. В противном случае, как понимаете, поиск в документе будет затруднен.

Чем скрупулезнее вы проведете анализ текста на предмет повторяющихся конструкций, тем проще вам будет потом. Поэтому не жалейте усилий! Исходя из своего опыта, могу сказать, что тексты различаются по сложности в отношении этого анализа. Простым текстом я называю такой текст, в котором доля слов, входящих в повторяющиеся словосочетания, невелика, но велико количество повторений этих словосочетаний. Было бы полезно иметь более точный математический критерий оценки сложности текста, но у меня не хватает сил этим заниматься. Может быть, кому-нибудь удастся такой критерий вывести.

Приведу пример, что получается в результате анализа текста.

Оригинал

In step 1216, the mobile communications device is operated to use said dedicated communications resource(s) to communicate via a second wireless communications link with said second base station. For example, the mobile communications device may have been assigned by the second base station an identifier to be used in wireless communications with the second base station over the second communications link. In some embodiments, some specific dedicated uplink segments may be associated with a specific identifier and reserved for use by the mobile communications device assigned by the base station to use that specific identifier. In some embodiments, some dedicated uplink segments are assigned by the base station on a segment by segment basis to mobile communications devices. Step 1216 includes sub-steps 1218, 1220 and 1222. In sub-step 1218, the mobile communications device uses a dedicated resource, e.g., an assigned uplink timing control segment, to perform a timing control synchronization operation. For example, the mobile communications device sends uplink signaling during the assigned uplink timing control segment, and the signaling is received by the second base station. A signal received from the BS is then and used to synchronize timing between the mobile communications device and the second base station. The timing synchronization operation normally involves adjusting the WTs symbol transmission timing based on a signal received from the BS. Operation proceeds from sub-step 1218 to sub-step 1220. In sub-step 1220, the mobile communications device is operated to use said dedicated resource, e.g., an assigned uplink power control segment, to perform a power control operation. For example, the mobile communications device sends, using an assigned uplink power control or other segment, a signal at a specified power level to be received and measured by the second base station. The base station subsequently convey power adjustment signals to the mobile communications device to which the mobile responds by adjusting its transmission power level. Operation proceeds from sub-step 1220 to sub-step 1222. In sub-step 1222, the mobile communications device is operated to transmit user data e.g., voice, text, or other information, over the second communications link that has been established with the second base station. User data can be communicated using one or more dedicated uplink traffic segments may have been assigned by the second base station to the mobile communications device, and the mobile communications device, which has been previously timing synchronized and power controlled based on signals from the new base station which can communicate user data in a reliable manner on the uplink to the second base station.

Промежуточный текст

На этапе 1216, the мобильное устройство связи задействуется для use said выделенный ресурс связи(s) to communicate via a second беспроводная линия связи with said second базовая станция. Например, the мобильное устройство связи may have been assigned by the second базовая станция an идентификатор to be used in wireless communications with the second базовая станция over the вторая линия связи. Согласно некоторым вариантам осуществления, some specific выделенный сегмент восходящей линии связиs may be associated with a specific идентификатор and reserved for use by the мобильное устройство связи assigned by the базовая станция to use that specific идентификатор. Согласно некоторым вариантам осуществления, some выделенный сегмент восходящей линии связиs are assigned by the базовая станция on a segment by segment basis to мобильное устройство связиs. Step 1216 включает в себя sub-steps 1218, 1220 and 1222. In sub-step 1218, the мобильное устройство связи uses a выделенный ресурс, например, an assigned uplink управление хронированием segment, to perform a управление хронированием synchronization operation. Например, the мобильное устройство связи sends сигнал восходящей линии связиing during the assigned uplink управление хронированием segment, and the signaling is received by the second базовая станция. A signal received from the БС is then and used to synchronize timing between the мобильное устройство связи and the second базовая станция. The операция синхронизации хронирования normally involves adjusting the WTs symbol передача timing based on a signal received from the БС. Operation proceeds from sub-step 1218 to sub-step 1220. In sub-step 1220, the мобильное устройство связи задействуется для use said выделенный ресурс, например, an assigned uplink управление мощностью segment, to perform a операция управления мощностью. Например, the мобильное устройство связи sends, using an assigned uplink управление мощностью or other segment, a signal at a specified уровень мощности to be received and measured by the second базовая станция. The базовая станция subsequently convey power adjustment signals to the мобильное устройство связи to which мобильное устройство responds by adjusting its передача уровень мощности. Operation proceeds from sub-step 1220 to sub-step 1222. In sub-step 1222, the мобильное устройство связи задействуется для transmit пользовательские данные например, voice, text, or другая информация, over the вторая линия связи that has been established with the second базовая станция. Пользовательские данные can be communicated using one or more dedicated uplink traffic segments may have been assigned by the second базовая станция to the мобильное устройство связи, and the мобильное устройство связи, which has been previously timing synchronized and управление мощностьюled based on signals from the новая базовая станция which can communicate пользовательские данные in a reliable manner on the uplink to the second базовая станция.

Не могу сказать, что анализ текста проведен весьма тщательно, поскольку в промежуточном тексте можно видеть непереведенные повторения, однако, в масштабе всего текста, а он довольно велик, общее количество переведенных слов весьма значительно.

3. Перевод

Теперь можно делать перевод на основе промежуточного текста. Я делаю это так. Располагаю два окна одно под другим: сверху – промежуточный текст, а снизу – окончательный перевод. Дальше беру целиком абзац промежуточного текста и копирую в окно перевода. Затем, в этом окне, заменяю непереведенные слова русскими, меняю слова местами, исправляю окончания, в общем, все это напоминает детский конструктор из кубиков. Раньше я просто писал перевод «на чистом листе» и вставлял переведенные куски из промежуточного текста. Однако практика показала, что такая методика может приводить к пропускам, особенно, если абзац большой или если рядом стоят похожие абзацы. Поэтому теперь я так не делаю. Кроме того, в технических текстах обычно встречаются весьма длинные и сложные с грамматической точки зрения предложения. Чтобы перевести такого монстра с чистого листа, нужно сначала полностью прочитать его, понять, перевести в уме и затем записать. При этом, естественно, могут возникать трудности перевода, над которыми задумываешься, теряя общий смысл фразы, после чего приходится опять смотреть на предложение в целом и т.д., пока, наконец, не забудешь перевести какое-нибудь слово. Приходится постоянно находиться в напряжении, что приводит к быстрому утомлению. Другое дело, когда ты копаешься в смеси русских и иностранных слов, можно потихоньку разбираться с отдельными кусками предложения, не опасаясь ничего потерять, таскать слова взад и вперед, стараясь улучшить удобочитаемость перевода, только нужно не забывать удалять уже ненужные иностранные слова. Работать можно с разной скоростью в зависимости от своего тонуса. Можно заменять сразу несколько слов подряд их переводом, а можно переводить слова по одному, если чувствуешь, что устал и внимание на нуле. Кроме того, при наличии в тексте идентичных фрагментов, а это случается нередко, удобно выделять их цветом. При окончательном переводе их можно копировать. Показываю, что получилось в результате перевода показанного абзаца.

Перевод

На этапе 1216, мобильное устройство связи задействуется для использования выделенного(ых) ресурса(ов) связи для связи по второй беспроводной линии связи со второй базовой станцией. Например, вторая базовая станция может назначить мобильному устройству связи идентификатор для использования в беспроводной связи со второй базовой станцией по второй линии связи. Согласно некоторым вариантам осуществления, некоторые конкретные выделенные сегменты восходящей линии связи могут быть связаны с конкретным идентификатором и зарезервированы для использования мобильным устройством связи, назначенным базовой станцией для использования этого конкретного идентификатора. Согласно некоторым вариантам осуществления, некоторые выделенные сегменты восходящей линии связи назначаются базовой станцией на посегментной основе мобильным устройствам связи. Этап 1216 включает в себя подэтапы 1218, 1220 и 1222. На подэтапе 1218, мобильное устройство связи использует выделенный ресурс, например, назначенный сегмент управления хронированием восходящей линии связи, для осуществления операции управления синхронизацией хронирования. Например, мобильное устройство связи передает сигнализацию восходящей линии связи в течение назначенного сегмента управления хронированием восходящей линии связи, и вторая базовая станция принимает сигнализацию. Затем сигнал, принятый от БС, используется для синхронизации хронирования между мобильным устройством связи и второй базовой станцией. Операция синхронизации хронирования обычно предусматривает регулировку хронирования передачи символов БТ на основании сигнала, принятого от БС. Операция переходит от подэтапа 1218 к подэтапу 1220. На подэтапе 1220, мобильное устройство связи задействуется для использования выделенного ресурса, например, an назначенного сегмента управления мощностью восходящей линии связи, для осуществления операции управления мощностью. Например, мобильное устройство связи передает, с использованием назначенного сегмента управления мощностью восходящей линии связи или другого сегмента, сигнал на заданном уровне мощности, подлежащий приему и измерению второй базовой станцией. Затем базовая станция передает сигналы регулировки мощности на мобильное устройство связи, в соответствие с которыми мобильное устройство регулирует свой уровень мощности передачи. Операция переходит от подэтапа 1220 к подэтапу 1222. на подэтапе 1222, мобильное устройство связи задействуется для передачи пользовательских данных, например, голоса, текста или другой информации, по второй линии связи, которая была установлена со второй базовой станцией. Пользовательские данные могут передаваться с использованием одного или нескольких выделенных сегментов трафика восходящей линии связи, которые могли быть назначены второй базовой станцией мобильному устройству связи, и мобильное устройство связи, в отношение которого ранее были произведены синхронизация хронирования и управление мощностью на основании сигналов от новой базовой станции, может передавать пользовательские данные надежным образом по восходящей линии связи на вторую базовую станцию.

Может, он и не очень изысканный, но зато ничего не потеряно. Однако возможно, что в переведенном тексте сохранятся пропущенные слова на языке оригинала. Чтобы выловить их, преобразуем документ перевода в простой текстовый формат и открываем полученный текстовый файл все той же программой Concordance. Смотрим список слов и находим все нерусское. Далее решаем, что с этим делать.

В связи с вышесказанным, поделюсь общими соображениями относительно технического перевода и, в частности, патентов. Переводчик, конечно должен разбираться в той области техники, в которой он работает. Однако он редко бывает классным специалистом, и, кроме того, приходится работать в довольно обширной области, где просто невозможно все досконально понимать. Также нужно учитывать, кто пишет тексты. Далеко не все они в совершенстве владеют языком, на котором пишут. Именно в связи с этим полезен тот подход двухэтапного перевода, который я здесь пропагандирую. Наша задача – прежде всего разобраться в основных терминах, применяемых автором, а они, как раз, чаще всего и повторяются. Многие авторы пользуются распространенными языковыми штампами, которые можно однозначно перевести на русский, и которые также легко выловить с помощью программы анализа текста. После этого, нам остается навести порядок в грамматике, практически не вдаваясь в существо текста, тем более, что иногда приходится только догадываться, что хотел сказать автор. Как ни прискорбно это звучит, мы выдаем лишь более или менее правдоподобную версию, но желательно, чтобы она пристойно выглядела на русском языке. На ум приходят строки из знаменитого стихотворения "Джабберуоки" из «Алисы в зазеркалье»:

Twas brilling, and the slithy toves

Did gyre and gimble in the wabe;

All mimsy were the borogoves,

And the mome raths outgrabe.

Главное – грамматика правильная! Это и позволило Маршаку перевести его:

Варкалось. Хлипкие шорьки

пырялись по мове,

и хрюкотали зелюки

как мюмзики в нове.

Похожие задачи приходится решать и нам, только, порой, с неправильной грамматикой!