Conceitos de Linguagens de Programação

MATA56 - Paradigmas de Linguagens de Programação

Universidade Federal da Bahia

Prof. Rodrigo Rocha <rodrigo@dcc.ufba.br>

Formas de implementação

Compilada: código-fonte => código nativo
- Ex.: .c => .exe
Interpretada: código-fonte
- Ex.: Python, Ruby
Híbrida: código-fonte => representação intermediária
- Ex.: .java => .class (bytecode)
- Ex.: .py => .pyc

É uma característica da implementação da linguagem. Ex.: existem compiladores e interpretadores de C.

Responsabilidades

Um compilador/interpretador deve:
- reconhecer código-fonte válido
- informar erros no código-fonte
- gerar código executável ou intermediário

Sintaxe

Se refere à forma de escrever código-fonte válido na linguagem de programação
É o que diz se uma linguagem de programação vai ser bonita (legível, fácil de escrever...)

Pascal
if c then begin b1 end else begin b2 end
C
if (c) { b1; } else { b2; }

LISP

(if c b1 b2)

Haskell

e | c = b1 | c2 = b2 | otherwise = b3

Fonte: http://rigaux.org/language-study/syntax-across-languages/CntrFlow.html#CntrFlowIfTheEls

código-fonte

(sintaxe concreta)

análise

léxica

sintática

árvore de sintaxe abstrata

(AST)

gerador

código-objeto

frontend

backend

Sintaxe concreta e abstrata

Sintaxe concreta: detalhamento caractere a caractere de como escrever programas
- if (expr) { ... }
Sintaxe abstrata: descreve a estrutura do programa (geralmente por meio de uma árvore)

Analisador léxico (lexer)

Identifica os elementos da linguagem presentes no código-fonte.
- Converte uma sequência de caracteres em uma sequência de tokens
- Ex.: i, f, (, n, u, m, =, =, 1, ) ==>
  INSTR_IF, ABRE_PARENTESES, IDENTIFICADOR (num), COMPARADOR_IGUALDADE, LITERAL_NUMERICO (1), FECHA_PARENTESES

Analisador léxico (lexer)

A especificação dos tokens da linguagem é geralmente feita usando-se expressões regulares
Ex.:
- LITERAL_NUMERICO: [0-9]+
- LITERAL_STRING: ".*?"
- COMPARADOR_IGUALDADE: ==
- IDENTIFICADOR: [a-zA-Z_][a-zA-Z0-9_]*
- INSTR_IF: if

Analisador sintático (parser)

Um parser obtém como entrada uma sequência de tokens (saída do lexer) e gera uma árvore de sintaxe abstrata de acordo com uma gramática (geralmente escrita no formato BNF ou EBNF)
Ex.:
- STMT_IF ::= INSTR_IF, ABRE_PARENTESES, EXPR, FECHA_PARENTESES, STMT
- ATRIBUICAO ::= IDENTIFICADOR, OP_ATRIB, EXPR
Nesse passo pode-se detectar erros no código
- Ex.: o programa "if if" é inválido, pois a gramática define que depois do if tem de vir um abre-parênteses.

Analisador sintático (parser)

Árvore de sintaxe abstrata (abstract syntax tree, AST)

Analisador sintático (parser)

Problema do else pendente

Semântica

Se refere à interpretação do significado de um programa
Um programa pode ser sintaticamente bem-formado mas ser semanticamente inválido
Algumas questões sobre semântica:
- O identificador "pi" é uma variável? uma função? uma constante?
- A variável x é declarada antes de usar?
- Existe código que nunca é executado?
- A expressão if true then s1() else s2() pode ser simplificada?
- Quais os tipos das variáveis na expressão a + b? O operador + está definido para esses tipos?

Identificadores

Identificadores são nomes dados a vários elementos de um programa, tais como variáveis, constantes, tipos e funções
Cada linguagem define suas regras para identificadores:
- número máximo de caracteres?
- diferencia maiúsculas e minúsculas?
- quais os caracteres permitidos?
- palavras-chave (if, while, for...) podem ser usadas como identificadores? Se não, dizemos que as palavras-chave são palavras reservadas.
- Ruby: variáveis começam com minúscula; constantes começam com maiúscula

Tabela de símbolos

Estrutura de dados usada pelo interpretador ou compilador que guarda informações sobre os identificadores no código-fonte de um programa

outros atributos: posição na memória, tamanho (array, strings), número e tipo dos argumentos (funções)...

Variáveis

Variável = célula de memória + identificador
Assume um valor que pode mudar com o tempo
Características: nome, endereço, valor, tipo, tempo de vida e escopo

L-value e R-value

Considere a atribuição:
x = x + 1;
As duas ocorrências de x representam coisas diferentes:
- L-value (left-value): o primeiro x denota a posição de memória onde o resultado será armazenado
- R-value (right-value): o segundo x denota o conteúdo da memória antes do cálculo da expressão
Em alguns compiladores, a expressão (x+1) = 5 resulta no erro de compilação "L-value required"

Vinculação

Uma vinculação (amarração ou binding) é uma associação entre entidades de programação. Ex.:
- Variável e valor
  - Ex.: a variável x tem valor 5
- Identificador e tipo
  - Ex.: o identificador x é uma variável
- Símbolo matemático e operação correspondente
  - Ex.: operação de soma e símbolo +

Tempo de vinculação

Momento em que uma vinculação é feita. Pode ser:
- vinculação estática
  - tempo de projeto de linguagem
  - tempo de implementação da linguagem
  - tempo de compilação
  - tempo de carga
- vinculação dinâmica
  - tempo de execução

Tempo de vinculação

Exemplo (Java): count = count + 5;
- o tipo de count é vinculado em tempo de compilação
- o significado do operador + é vinculado em tempo de compilação (pode ser soma ou concatenação)
- o valor de count é vinculado em tempo de execução

Tempo de vida (variável)

É o tempo em que uma variável fica vinculada a uma posição de memória
Quanto ao tempo de vida, as variáveis podem ser
- estáticas
- stack-dinâmicas
- heap-dinâmicas

Variáveis estáticas

São alocadas (i.e., vinculadas a uma posição de memória) antes do início da execução do programa e desalocadas somente com o término do programa.
Ex.: variáveis static em C:
- void incrementa() {
- static int x = 0;
- x++;
- printf("%d\n", x);
- }
Ex.: variáveis globais
Vantagem: eficiência no acesso (posição fixa), só aloca uma vez
Desvantagem: ocupa memória mesmo quando não está sendo usada

Variáveis stack-dinâmicas

O armazenamento é vinculado (i.e., a variável é alocada) em tempo de execução, no momento da declaração da variável
Todas as variáveis stack-dinâmicas compartilham uma região de memória, a pilha (stack, last in first out)
Ex.: variáveis locais de funções em C (são alocadas no início da execução da função e desalocadas no final)
int somatorio(int n) {
int i, soma = 0;
for (i = 0; i < n; i++) { soma += i; }
return soma;
}

Variáveis heap-dinâmicas

Variáveis alocadas/desalocadas em tempo de execução, em uma área chamada heap
Podem ser alocadas e desalocadas a qualquer momento, não precisar seguir last in, first out
Flexível o suficiente para construir estruturas de dados dinâmicas (listas encadeadas, árvores etc.)
Ex.: malloc/free em C, new/garbage collector em Java
Riscos:
- ponteiro pendente: desaloca memória, mas ainda há ponteiro para aquela posição
- vazamento de memória: a memória ainda está alocada, mas nenhum ponteiro aponta para ela
- compartilhamento: dois ponteiros apontam para a mesma posição de memória

https://en.wikipedia.org/wiki/Memory_safety

Gerenciamento de memória (da heap)

Manual: programador é responsável por desalocar a memória alocada (ex. em C: malloc/dispose)
- Bom: maior controle
- Ruim: fácil cometer erros (ex.: ponteiro pendente)
Coleta de lixo (garbage collection): automaticamente libera memória que não está sendo usada pelo programa
- Bom: menor preocupação do programador
- Ruim: menor controle

Garbage collection por contagem de referência

Cada variável tem um contador, que é incrementado quando é referenciada e decrementado quando deixa de ser referenciada. Ao atingir 0, é desalocada.
- Ex.: Swift: automatic reference counting (ARC)
  - referências weak, strong e unowned
- Ex.: Objective-C 1.x: [var retain], [var release]
Risco: referências circulares
O programador ainda precisa ter algum conhecimento do seu funcionamento para escrever um programa

Garbage collection por contagem de referência

Garbage collection por tracing

Muitas vezes chamado simplesmente de garbage collection
Periodicamente o garbage collector (GC) libera células de memória que não podem ser acessadas através de uma busca em grafo.
O programador pode forçar a execução do GC
Bom: o programador quase não precisa se preocupar com gerenciamento de memória
Bom: evita ponteiros pendentes e certos vazamentos de memória
Ruim: o GC pode ser demorado e causar "soluços" imprevisíveis na aplicação

Garbage collection por tracing

Escopo e ambiente de referenciamento

O escopo de um nome é a região do programa no qual o nome é visível, isto é, pode ser referenciado
- Ex.: nomes de variáveis, nomes de funções
Na maioria das linguagens, o escopo de uma variável é determinado estaticamente (i.e., antes da execução do programa)

Escopo

var glob = 123;     // 1
console.log(glob);  // 2
function teste() {  // 3
    var x = 2;      // 4
    console.log(x); // 5
}                   // 6
glob = 456;         // 7

Qual o escopo da variável glob?

Qual o escopo da variável x?

Escopo

var glob = 123;     // 1
console.log(glob);  // 2
function teste() {  // 3
    var x = 2;      // 4
    console.log(x); // 5
}                   // 6
glob = 456;         // 7

glob tem escopo global: é acessível de qualquer parte do programa, a princípio (existem exceções, como veremos)

x tem escopo local: só é acessível no bloco de código da função teste.

Ambiente de referenciamento

var glob = 123;     // 1
console.log(glob);  // 2
function teste() {  // 3
    var x = 2;      // 4
    console.log(x); // 5
}                   // 6
glob = 456;         // 7

Qual é o ambiente de referenciamento da linha 7?

E da linha 5?

É o conjunto de nomes visíveis em uma região do programa.

/* 1  */ var glob = 1;
/* 2  */ 
/* 3  */ function externa() {
/* 4  */     var xext = 2;
/* 5  */ 
/* 6  */     function interna() {
/* 7  */         var xint = 3;
/* 8  */         console.log(xext);
/* 9  */     }
/* 10 */     interna();
/* 11 */ }
/* 12 */ externa();

JavaScript permite funções aninhadas ==> escopos aninhados.

O que vai acontecer ao executar a linha 8?

A variável xext faz parte do amb. de referenciamento da linha 8?

/* 1  */ var x = 1;
/* 2  */ 
/* 3  */ function externa() {
/* 4  */     var x = 2;
/* 5  */ 
/* 6  */     function interna() {
/* 7  */         var x = 3;
/* 8  */         console.log(x);
/* 9  */     }
/* 10 */     interna();
/* 11 */ }
/* 12 */ externa();

Na linha 8, o nome x se refere à variável declarada em qual linha?

/* 1  */ var x = 1;
/* 2  */ 
/* 3  */ function externa() {
/* 4  */     var x = 2;
/* 5  */ 
/* 6  */     function interna() {
/* 7  */         var x = 3;
/* 8  */         console.log(x);
/* 9  */     }
/* 10 */     interna();
/* 11 */ }
/* 12 */ externa();

A declaração de x na linha 4 mascara a variável x da linha 1 (sombreamento)

Qual o escopo das diferentes vinculações de x?

Tipos

Um tipo (de dados) determina
- um conjunto de valores possíveis,
- as operações que podem ser feitas sobre o tipo
- o significado
- e a forma de armazenamento
Ex.: unsigned short int (em C)
- valores: de 0 a 65535
- operações: +, -, *, /, %, ==, !=, <, <=, dentre outros
- significado: número inteiro
- armazenamento: 2 bytes
  - a implementação define endianness (ordem dos bytes)

Tipos

Podem ser:
- embutidos/predefinidos
- customizados/definidos pelo usuário
  - ex.: structs, enums, classes
Podem ser:
- primitivos
  - ex.: int, float, char
- compostos: definidos a partir dos primitivos
  - ex.: string (char *), arrays, structs
- Ex. em Java: int é primitivo, Integer não

Tipos

Podem ser:
- numéricos (inteiro, ponto flutuante, decimal)
- booleanos
- caracter
- ordinais (inclui os anteriores)
  - enumeração. Permite <, >, =. Ex. (Pascal):
    - type colortype = (red, green, blue);
    - enums em C e Java
  - subrange. subsequência de um tipo ordinal
    - ex.: type tx = 1..10; upcase = 'A'..'B'

Tipos

Podem ser:
- mutáveis: o valor pode ser alterado após inicialização
  - Ex.: NSMutableArray (Objective C)
  - Ex.: listas em JavaScript, Ruby, Python
- imutáveis: o valor não pode ser alterado
  - Ex.: String em Java
  - Ex.: NSArray (Objective C)
  - Ex.: tuplas em Python
Atenção: um tipo imutável pode conter valores mutáveis (ex.: tuplas contendo listas)

Tipo String

Vetor de caracteres ou primitivo
Como calcular o comprimento?
- C usa byte 0 para indicar término - O(n)
- BASIC armazena contagem de caracteres - O(1)
- Pascal preenche string com espaços
Concatenação de strings (A + B). Ex. (Java):
- "Não use + para concatenar strings!"
- Strings são imutáveis; A + B gera nova string
- StringBuffer: concatenação nem sempre gera nova alocação de memória

Tipo Array

É um tipo composto homogêneo, i.e., os elementos são do mesmo tipo
Os elementos são indexados
- C: a partir de 0
- R: a partir de 1
- Pascal: arbitrário (você escolhe)
Podem ser uni ou multidimensionais (matrizes)
- Matrizes: row major vs column major order
JavaScript, Python e Ruby possuem listas, que são tipos compostos heterogêneos (pode misturar elementos de tipos diferentes)
Tipo set/conjunto: não admite elementos repetidos

Tipo array associativo

Estrutura chave-valor
Também chamado de dicionário, hash, mapa
Ex.:
{"pedra": "ametista",
"cor": "amarelo",
"tamanho": 4}

Outros:

Tipo registro (struct em C)
- Tipo composto heterogêneo
Tipo union
Tipo ponteiro, tipo referência
Tipos genéricos (Java) / templates (C++):
- Ex.: Array<Integer>, HashMap<String, Integer>

Vinculação de tipos

Pode ser
- estática. Os tipos das variáveis podem ser determinados sem executar o programa.
  - ex.: Java, C
- dinâmica. O tipo é definido em tempo de execução.
  - ex.: Python, Ruby
Pode ser
- explícita. Os tipos são declarados.
  - int x; String y;
- implícita. Os tipos não são declarados.
  - if (random()) x = a; else x = b. <== vinculação dinâmica
  - x = 1. Em algumas linguagens pode-se inferir o tipo estaticamente, em tempo de compilação

Tipificação: forte vs. fraca

Ou tipagem. As definições são imprecisas
Forte: consegue detectar a maioria dos erros de tipo
- ex.: "3" + 2 (tipo string + tipo inteiro)
- ex.: int *x; float *y; x = y; ... *x; (ponteiro)
- ex.: char x[10], y[20]; strcpy(x, y); (buffer overflow)
- ex.: printf("%s", 12)
- ex.: int x = 3.5 + 1; (truncamento)
- ex.: acesso de ponteiro nulo
Fraca: contrário de forte
Note que uma linguagem pode ter tipificação dinâmica e forte. Ex.:
- a = "3"
- b = 2
- c = a + b <== erro em tempo de execução

Tipificação: forte vs. fraca

Gotchas
- JavaScript
  - http://www.codeproject.com/Articles/182416/A-Collection-of-JavaScript-Gotchas
  - http://brian.io/slides/dotjs-2012/
  - "3" + 2
  - "3" - 2
  - 0.1 + 0.2

Conversão de tipos

Às vezes é necessário converter o tipo de um dado (ex.: expressões com tipos mistos)
Pode ser
- explícita (cast). Ex.: int x; float y = (float)x / 2;
  - Ex. (Ruby): 1.to_f / 2.0
- implícita (coerção). Ex.: int a = 1; float b = 0.5, c = a + b;
Pode ser
- ampliadora (widening, >) - conversão para um tipo que inclui (ao menos aproximadamente) o tipo original. Ex.: int => float
- redutora (narrowing, <) - o contrário. Ex.: float => int (perde informação!)
Java: boxing (int => Integer) e unboxing (Integer => int)

Subrotinas

Uma subrotina ou subprograma é uma sequência de instruções empacotadas como uma unidade
A depender do contexto, são chamadas de procedimentos, funções, rotinas, métodos...
Possuem um cabeçalho: nome, tipo de retorno, lista de parâmetros

Parâmetros

Considere a declaração:
- int soma(int a, int b)
- a e b são parâmetros formais da função soma
Considere a chamada:
- int x = soma(3, 4);
- 3 e 4 são parâmetros reais ou argumentos da chamada à função soma

Vinculação entre parâmetros e argumentos

A vinculação entre argumentos e parâmetros geralmente se dá por posição (1o parâmetro recebe o 1o argumento etc.). Ex.:soma(3, 4)
Algumas linguagens admitem parâmetros nomeados, de forma que os argumentos podem ser passados em qualquer ordem. Ex.:soma(b=4, a=3)
Algumas linguagens permitem parâmetros opcionais com valores default. Ex.: soma(b=4) ou soma(3).
Algumas linguagens permitem número variável de argumentos. Ex.: soma(1, 2, 3, 4, 5, 6, 7).

Passagem de parâmetros

Existem diversos mecanismos para passagem de parâmetros durante a chamada, de acordo com 2 dimensões:
- o valor é transferido para a função (in) vs o valor é transferido da função para o chamador (out) ou ambos (inout)
- o valor é copiado para a função vs. uma referência é passada para a função

Passagem de parâmetros

Chamada por valor: o argumento é avaliado e copiado para a subrotina (in)
Chamada por referência: uma referência para o argumento é passada para a subrotina (in/out)
Chamada por valor-resultado: o argumento é copiado para a subrotina e, ao fim de sua execução, é copiado de volta para o chamador (in/out). Ex.: rede

Passagem de parâmetros

C#: palavra-chave ref para passar por referência.
Passagem por referência é mais rápida e usa menos memória para objetos grandes. E se eu quiser passar por referência mas não ter o comportamento in/out?
C++: palavra-chave const
C tem passagem por referência?
Exemplo clássico de passagem por referência: função swap (troca).
Java usa passagem por valor ou por referência? Exemplo de função que recebe uma lista e adiciona um elemento a ela.

Avaliação estrita vs preguiçosa

Todos esses casos são estratégias de avaliação estrita: os argumentos de uma função são avaliados antes da chamada da função.
Considere o seguinte exemplo em C:
- 1 + 1 == 2 ? printf("A") : printf("B");
- Se pensarmos no operador ternário (?:) como uma função de três parâmetros, ela segue uma avaliação estrita?
- ternario(1 + 1 == 2, printf("A"), printf("B"))
- Como criar a função ternario em C?

Passagem de parâmetros

Avaliação não-estrita: os argumentos são avaliados apenas seu valor é requisitado. Aplicação: listas infinitas. Alguns tipos:

Chamada por nome: o texto do argumento é passado como parâmetro e avaliado dentro da função (in/out). Usado em Scala. Ver exemplo. #define em C. Aplicação: logging.
Chamada por necessidade: igual ao anterior, mas avalia parâmetro só uma vez (faz caching do resultado). Ex.: função fibonacci recursiva.

Funções como valores

Nas linguagens com suporte ao paradigma funcional, uma função é um valor (assim como números, strings etc.)
Nesse caso dizemos que funções são cidadãos de primeira classe
Isso significa que é possível
- atribuir uma função a uma variável
- passar uma função como parâmetro para outra
- criar funções que retornam funções
Esse tópico será detalhado na unidade sobre programação funcional

Sobrecarga de subrotinas

A sobrecarga ocorre quando há duas ou mais funções com o mesmo nome dentro do mesmo ambiente de referenciamento
A função chamada depende da lista de parâmetros
- número de parâmetros
- tipo dos parâmetros

Sobrecarga de subrotinas

Considere as duas declarações a seguir:
1. int soma(int a, int b)
2. float soma(float a, float b)
Uma chamada a soma(3, 5) invocará qual das funções?
E se for soma(3, 5.0f)? E se for soma(x, y), onde x e y são do tipo double?

Sobrecarga de subrotinas

Considere as duas declarações a seguir:
1. int fibonacci(int n);
2. long fibonacci(int n);
Considere a seguinte chamada:
- long x = fibonacci(10)
Qual das funções será chamada? E se a chamada for:
- float x = fibonacci(10)
Em C, não há como distinguir funções somente pelo tipo de retorno.

Ecossistema da linguagem

Bibliotecas e frameworks (ex.: rails, junit)
Automação de build (ex.: make, ant)
Gerenciamento de dependências (ex.: maven)
Documentação de APIs (ex.: javadoc)
Gerenciador de instalações (ex.: rvm)
Outros
- Analisador de código (ex.: sonar)
- Integração contínua (ex.: jenkins, travis)

Conceitos de Linguagens de Programação

By Rodrigo Rocha Gomes e Souza

Conceitos de Linguagens de Programação

2,311

Rodrigo Rocha Gomes e Souza

xrodrigorgs

Conceitos de Linguagens de Programação

Formas de implementação

Responsabilidades

Sintaxe

Sintaxe

Sintaxe concreta e abstrata

Analisador léxico (lexer)

Analisador léxico (lexer)

Analisador sintático (parser)

Analisador sintático (parser)

Analisador sintático (parser)

Semântica

Semântica

Identificadores

Tabela de símbolos

Variáveis

L-value e R-value

Vinculação

Tempo de vinculação

Tempo de vinculação

Tempo de vida (variável)

Variáveis estáticas

Variáveis stack-dinâmicas

Variáveis heap-dinâmicas

Gerenciamento de memória (da heap)

Garbage collection por contagem de referência

Garbage collection por contagem de referência

Garbage collection por tracing

Garbage collection por tracing

Escopo e ambiente de referenciamento

Escopo

Escopo

Ambiente de referenciamento

Tipos

Tipos

Tipos

Tipos

Tipo String

Tipo Array

Tipo array associativo

Outros:

Vinculação de tipos

Tipificação: forte vs. fraca

Tipificação: forte vs. fraca

Conversão de tipos

Subrotinas

Parâmetros

Vinculação entre parâmetros e argumentos

Passagem de parâmetros

Passagem de parâmetros

Passagem de parâmetros

Passagem de parâmetros

Avaliação estrita vs preguiçosa

Passagem de parâmetros

Funções como valores

Sobrecarga de subrotinas

Sobrecarga de subrotinas

Sobrecarga de subrotinas

Ecossistema da linguagem

Conceitos de Linguagens de Programação

More from Rodrigo Rocha Gomes e Souza