Наш сегодняшний урок ЧЕРЕЗВЫЧАЙНО труден
Урок 21. Регулярные выражения Наш сегодняшний урок ЧЕРЕЗВЫЧАЙНО труден - будем изучать весьма специфическую и тяжелую для усвоения информацию. Но понять эту тему важно, ведь она - вся сила (Power) языка Perl. И так, соберем все оставшиеся силы в кулак и приступим к поеданию гранита науки, немного уже осталось... Совет: Прочитайте этот урок не спеша, пытаясь вдуматься буквально в каждое слово. С первого раза Вы, скорее всего, не поймете тему. По этому читайте её не менее 4-х раз с интервалом не менее 1 часа. Это поможет запомнить до 60% всей информации на уровне восприятия и до 30% на интуитивном уровне. Лучше всего держать всю эту страницу где-нибудь "под рукой" в распечатанном виде, чтобы в случае необходимости Вы смогли быстро найти нужную Вам информацию. Не зацикливайтесь на том, что Вам не понятны примеры. Это естественно. Просто примите к сведению, что эти скрипты работают и не старайтесь разобраться в них. Сегодня Вы должны ознакомиться с темой только теоретически, практикой займемся немного позже. Чаще всего в Perl регулярные выражения используются в операторах поиска и замены таких как s//, m/, операторах связки =~ или != и т.д. Как правило все эти операторы имеют схожие опции такие как: |
i | - не различать строчные и заглавные буквы. |
m | - считать строку многострочной. |
s | - однострочная строка. |
x | - расширенный синтаксис ( использование пробелов и комментариев) |
Регулярные выражения или шаблоны (pattern) то же самое, что и regexp процедуры в Unix. Выражения и синтаксис заимствованы из свободно распространяемых процедур V8 Генри Спенсера (Henry Spencer), там же они подробно и описаны.
В шаблонах используются следующие метасимволы (символы обозначающие группы других символов) часто называемые egrep - стандартом:
\ | - считать следующий метасимвол как обычный символ. |
^ | - начало строки |
. | - один произвольный символ. Кроме '\n' - конец строки. |
$ | - конец строки |
| | - альтернатива (или) |
() | - группировка |
[] | - класс символов |
Метасимволы имеют модификаторы (пишутся после метасимвола):
* | - повторяется 0 или большее число раз |
+ | - -//- 1 или большее число раз |
? | - 1 или 0 раз |
{n} | - точно n раз |
{n,} | - по меньшей мере раз |
{n,m} | - не меньше n, но и не больше m |
По умолчанию действие метасимволов "жадно" (greedy). Совпадение распространяется столько раз, сколько возможно, не учитывая результат действия следующих метасимволов. Если вы хотите "уменьшить их аппетит", то используйте символ '?'. Это не изменяет значение метасимволов, просто уменьшает распространение. Таким образом:
*? | - станет 0 и более |
+? | - 1 и более |
?? | - 0 или 1 раз |
{n}? | - точно n раз |
{n,}? | - не меньше n раз |
{n,m}? | - больше или равно n и меньше m раз |
\t | - символ табуляции |
\n | - новая строка |
\r | - перевод каретки |
\а | - перевод формата |
\v | - вертикальная табуляция |
\a | - звонок |
\e | - escape |
\033 | - восьмеричная запись символа |
\x1A | - шестнадцатеричная |
\c[ | - control символ |
\l | - нижний регистр следующего символа |
\u | - верхний регистр -//- |
\L | - все символы в нижнем регистре до \E |
\U | - в верхнем -//- |
\E | - ограничитель смены регистра |
\Q | - отмена действия как метасимвола |
\w | - алфавитно-цифровой или '_' символ |
\W | - не -//- |
\s | - один пробел |
\S | - один не пробел |
\d | - одна цифра |
\D | - одна не цифра |
\w+ | - слово |
\d+ | - целое число |
[+-]?\d+ | - целое со знаком |
[+-]?\d+\.?\d* | - число с точкой |
\b | - граница слова |
\B | - не граница слова |
\A | - начало строки |
\Z | - конец строки |
\G | - конец действия m//g |
Граница слова (\b) - это мнимая точка между символами \w и \W. Внутри класса символов '\b' обозначает символ backspace (стирания). Метасимволы \A и \Z - аналогичны '^' и '$', но если начало строки '^' и конец строки '$' действуют для каждой строки в многострочной строке, то \A и \Z
обозначают начало и конец всей многострочной строки.
Если внутри шаблона применяется группировка (круглые скобки), то номер подстроки группы обозначается как '\цифра'. Заметьте, что за шаблоном в пределах выражения или блока эти группы обозначаются как '$цифра'. Кроме этого существуют дополнительные переменные:
$+ | - обозначает последнее совпадение |
$& | - все совпадение |
$` | - все до совпадения |
$' | - все после совпадения |
$s = "Один 1 два 2 и три 3"; if ($s =~ /(\d+)\D+(\d+)/) { print "$1\n";# Результат '1' print "$2\n";# '2' print "$+\n";# '2' print "$&\n";# '1 два 2' print "$`\n";# 'Один ' print "$'\n";# ' и три 3' }
Perl версии 5 содержит дополнительные конструкции шаблонов:
(?#комментарий) | - комментарий в теле шаблона. |
(?:шаблон) | - группировка как и '( )', но без обратной ссылки |
(?=шаблон) | - "заглядывание" вперед. Например /\w+(?=\t)/ соответствует слову, за которым идет табуляция, но символ '\t' не включается в результат. |
$s = "1+2-3*4"; if ($s =~ /(\d)(?=-)/) # Найти цифру за которой стоит '-' { print "$1\n"; # Результат '2' } else { print "ошибка поиска\n";}
(?!шаблон) - "заглядывание" вперед по отрицанию.
Пример:
$s = "1+2-3*4"; if ($s =~ /(\d)(?!\+)/) # Найти цифру за которой не стоит '+' { print "$1\n"; # Результат '2' } else { print "ошибка поиска\n";}
Правила регулярных выражений:
* * * *
[Содержание] [Вступление] [необходимое для начала изучения] [урок 1] [урок 2] [урок 3] [урок 4] [урок 5] [урок 6] [урок 7] [урок 8] [урок 9] [урок 10] [урок 11] [урок 12] [урок 13] [урок 14] [урок 15] [урок 16] [урок 17] [урок 18] [урок 19] [урок 20] [урок 21] [урок 22] [урок 23] [урок 24] [урок 25] [урок 26] [урок 27] [урок 28] [правила хорошего тона] [приложение A] [приложение Б] [приложение В] [заключение] [благодарности]
Copyright (c) ClericICN, 2002