Python

Expresiones Regulares

¿Que son?

Poderoso lenguaje para hacer coincidir patrones de texto

Con Python el módulo 're' es el que les da soporte

match = re.search(pat, str)

re.search()

Si la búsqueda es exitosa, retorna un objeto
Si no exitosa, retorna None

Patrones básicos

a, X, 9, < -- caracteres ordinarios sólo coinciden con sí mismos de manera exacta. Los meta-caracteres que no coinciden con sigo mismos porque tienen un significado especial son:: . ^ $ * + ? { [ ] \ | ( )
. (un punto) -- coincide cualquier caracter (1 sólo) excepto por la línea nueva '\n'
\w -- (w minúscula) coincide un caracter de "palabra": es decir, una letra o dígito o guión bajo [a-zA-Z0-9_]. \W (W mayúscula) coincide cualquier caracter no-palabra.
\b -- límite entre palabra y no palabra

Patrones básicos (cont)

\s -- (s minúscula) coincide un solo caracter de espacio -- espacio, nueva línea, retorno, tab: [ \n\r\t\f]. \S (S mayúscula) coincide cuanquier caracter no-espacio.
\t, \n, \r -- tab, nueva línea, retorno
\d -- dígito decimal [0-9] (algunas utilidades viejas no lo soportan, pero todas soportan \w and \s)
^ = comienzo, $ = fin -- coinciden el comienzo o fin de una cadena.
\ -- cancela lo "especial" de un caracter. Así, por ejemplo, utilizar \. para coincidir un punto.

Reglas

La búsqueda ocurre a lo largo de la cadena, parando en la primer coincidencia.
Todo el patrón debe coincidir, pero no en toda la cadena.
Si match = re.search(pat, str) es exitoso, match no es None y el texto encontrado está en match.group()

Las reglas básicas de las expresiones regulares para buscar un patrón en una cadena son

Ejemplos básicos

Chiste: what do you call a pig with three eyes? piiig!

Repetición

+ -- 1 o más ocurrencias del patrón a su izquierda. Ej: 'i+' = una o más 'i'es
* -- 0 o más ocurrencias del patrón a su izquierda
? -- 0 o 1 ocurrencias del patrón a su izquierda

Más a la izquierda y más grande

Primero encuentra la coincidencia de más a la izquierda del patrón, y segundo intenta usar todo lo que pueda de la cadena -- Ej. + y * abarcan lo más posible (el + y * son "codiciosos").

Ejemplo de repetición

Ejemplo con E-mail

Suponiendo que queremos encontrar la dirección de correo dentro de la cadena 'xyz alice-b@google.com mono violeta'

Notar que la búsqueda no devuelve todo el email porque \w no encuentra '-' o '.'

Corchetes

Indican un grupo de caracteres
[abc] conciden 'a', 'b' o 'c'
\w, \s etc. funcionan dentro de los corchetes
El punto (.) no funciona en los corchetes, significa solamente punto literal.
Se puede usar el guión para indicar un rango: [a-z] encuentra todas las minúsculas.
Para buscar guiones, colocarlo al final: [abc-].
Un acento circumflejo al comienzo de corchetes busca el inverso: [^ab] busca cualquier caracter menos a o b

Extracción de grupos

Permite extraer partes de una búsqueda
cada parte va entre paréntesis
Los paréntesis no cambian el patrón de búsqueda
match.group(1) el la coincidencia en el primer paréntesis
match.group() sigue devolviendo la coincidencia completa

findall

Encuentra todas las ocurrencias del patrón

En archivos

# Open file
f = open('test.txt', 'r')
# Alimenta el archivo de texto en findall(); retorna una 
# lista de todas las cadenas encontradas
strings = re.findall(r'algun patron', f.read())

findall y Grupos

El mecanismo de paréntesis de grupos se puede combinar con findall
Si hay 2 o más paréntesis, el valor retornado es una lista de tuplas

Flujo de trabajo y depuración

Los patrones de expresiones regulares empaquetan mucho significado en unos pocos caracteres
Si el patrón no encuentra nada, hacerlo más débil quitándole partes.
Una vez que se obtienen muchos resultados, ajustarlo incrementalmente hasta lograr lo que se quería.
Herramientas en línea: http://www.regexr.com/ http://regex101.com/

Opciones

IGNORECASE -- ignora las diferencias entre mayúsculas y minúsculas.
DOTALL -- permite que el punto (.) coincida con una nueva línea -- normalmente coincide con cualquier cosa menos una nueva línea (aunque es mejor usar \s* para esto).
MULTILINE -- Permite que ^ and $ coincidan con el comienzo y fin de cada línea. Normalmente ^/$ sólo coinciden con el inicio y fin de toda la cadena.

Las funciones de re aceptan opciones para modificar su comportamiento, la opción se agrega como un argumento extra a search() o findall() ,ej: re.search(pat, str, re.IGNORECASE)

Codicioso y no-codicioso

Ejemplo de cadena: foo y asi vamos
Nuestro patrón: (<.*>)
Probar!
El aspecto codicioso de .* Provoca que coincida con toda la cadena.
Recordar que .* va todo lo lejos que puede en vez de frenar en la primer coincidencia! > codicioso
Se puede agregar un ? para hacerlo no-codicioso
Si hacemos (<.*?>), devuelve , , etc.
? es una extensión, no todos los engines lo reconocen
los corchetes [] con ^ combinados excluyen el patron dentro de la búsqueda. Probar [^>]*

Substitución

re.sub(patron, reempazo, cadena) busca todas las coincidencias de cadena, y las reemplaza
La cadena de reemplazo puede incluir '\1', '\2' que se refieren a group(1), group(2), etc del patrón original

import re
str = 'xyz alice-b@google.com mono violeta bob@abc.com bla lavaplatos'

## re.sub(patron, reemplazo, cadena) -- retorna una nueva cadena con
## todo reemplazado, \1 es group(1), \2 group(2) en el reemplazo
print re.sub(r'([\w\.-]+)@([\w\.-]+)', r'\1@yo-yo-dyne.com', str)

Material de lectura extra

python-expresiones-regulares

By Guillermo Nuñez

python-expresiones-regulares

3,380

Guillermo Nuñez

bitrstudio.com

Python

Expresiones Regulares

¿Que son?

re.search()

Patrones básicos

Patrones básicos (cont)

Reglas

Ejemplos básicos

Repetición

Más a la izquierda y más grande

Ejemplo de repetición

Ejemplo con E-mail

Corchetes

Extracción de grupos

findall

En archivos

findall y Grupos

Flujo de trabajo y depuración

Opciones

Codicioso y no-codicioso

Substitución

Material de lectura extra

python-expresiones-regulares

More from Guillermo Nuñez