Resumos
Este artigo trata do projeto de controle por modos deslizantes para o rastreamento de trajetória em plantas monovariáveis incertas com grau relativo unitário e com sinal de ganho de alta frequência desconhecido, i.e., a direção de controle é assumida desconhecida. Demonstra-se que é possível obter rastreamento global e exato utilizando-se apenas realimentação de saída por meio de uma função de chaveamento periódica e filtros de entrada e saída. Uma vantagem significante desse novo esquema é sua robustez à direção de controle variante no tempo que foi teoricamente justificada para variações do tipo salto e testada com sucesso através de simulações. Essa propriedade torna a abordagem adequada para resolver problemas de busca extremal. Uma aplicação à otimização não-derivativa ilustra a viabilidade prática do esquema de controle proposto.
controle por modos deslizantes; realimentação de saída; sistemas incertos; direção de controle desconhecida; rastreamento global; controle por busca extremal
This paper addresses the design of a sliding mode tracking controller for single-input-single-output (SISO) uncertain plants with relative degree one and unknown sign of the high frequency gain (HFG), i.e., with unknown control direction. We demonstrate that it is possible to achieve global exact tracking using only output-feedback by means of a periodic switching function and input-output filters based framework. One significant advantage of the new scheme is its robustness to time-varying control direction which has been theoretically justified for jump variations and successfully tested by simulation. Such property makes it adequate for solving extremum-seeking problems. A nonderivative optimizer application illustrates the practical viability of the proposed control scheme.
sliding mode control; output-feedback; uncertain systems; unknown control direction; global tracking; extremum-seeking control
TEORIA DE CONTROLE
Controle por realimentação de saída e modos deslizantes via função de chaveamento periódica aplicado ao problema de busca extremal
Output-feedback sliding mode control via periodic switching function applied to extremum-seeking
Tiago Roux OliveiraI; Alessandro Jacoud PeixotoII; Liu HsuII
IDepartamento de Engenharia Eletrônica e de Telecomunicações Universidade do Estado do Rio de Janeiro - UERJ, Rio de Janeiro, RJ, Brasil. tiagoroux@uerj.br, jacoud@me.com
IIDepartamento de Engenharia Elétrica/COPPE, Universidade Federal do Rio de Janeiro - UFRJ, Rio de Janeiro, RJ, Brasil. liu@coep.ufrj.br
RESUMO
Este artigo trata do projeto de controle por modos deslizantes para o rastreamento de trajetória em plantas monovariáveis incertas com grau relativo unitário e com sinal de ganho de alta frequência desconhecido, i.e., a direção de controle é assumida desconhecida. Demonstra-se que é possível obter rastreamento global e exato utilizando-se apenas realimentação de saída por meio de uma função de chaveamento periódica e filtros de entrada e saída. Uma vantagem significante desse novo esquema é sua robustez à direção de controle variante no tempo que foi teoricamente justificada para variações do tipo salto e testada com sucesso através de simulações. Essa propriedade torna a abordagem adequada para resolver problemas de busca extremal. Uma aplicação à otimização não-derivativa ilustra a viabilidade prática do esquema de controle proposto.
Palavras-chave: controle por modos deslizantes, realimentação de saída, sistemas incertos, direção de controle desconhecida, rastreamento global, controle por busca extremal.
ABSTRACT
This paper addresses the design of a sliding mode tracking controller for single-input-single-output (SISO) uncertain plants with relative degree one and unknown sign of the high frequency gain (HFG), i.e., with unknown control direction. We demonstrate that it is possible to achieve global exact tracking using only output-feedback by means of a periodic switching function and input-output filters based framework. One significant advantage of the new scheme is its robustness to time-varying control direction which has been theoretically justified for jump variations and successfully tested by simulation. Such property makes it adequate for solving extremum-seeking problems. A nonderivative optimizer application illustrates the practical viability of the proposed control scheme.
Keywords: sliding mode control, output-feedback, uncertain systems, unknown control direction, global tracking, extremum-seeking control.
1 INTRODUÇÃO
O controle por modos deslizantes (SMC) vem sendo aplicado em sistemas incertos lineares
onde x ∈ n é o estado da planta, u ∈ é a entrada, y ∈ é a saída medida, d ∈ é uma perturbação de entrada desconhecida e A, B, C são matrizes (vetores) constantes incertas.
A maior parte dos resultados na literatura, e.g., (Cunha et al., 2005; Cunha et al., 2009; Bessa & Barreto, 2010), assume que a direção de controle, isto é, o sinal do ganho de alta frequência é conhecido. No caso de plantas monovariáveis com grau relativo relativo ρ, isto corresponde a conhecer o sinal do escalar não-nulo kp = CAρ1B.
Para o controle por modos deslizantes, o caso de plantas com direção de controle incerta foi considerada apenas por poucos autores. Drakunov (1993) propôs uma solução baseada em uma engenhosa função de chaveamento periódica definindo múltiplas superfícies de chaveamento, para as quais ao menos uma seria uma superfície de deslizamento estável, independentemente da direção de controle. Uma desvantagem deste método é a necessidade de se conhecer o vetor de estado completo da planta. Uma outra solução, considerando plantas não-lineares, mas restritas ao caso de primeira ordem, foi proposta em (Bartolini et al., 2003). Mais recentemente, uma abordagem baseada em funções de monitoração foi desenvolvida em (Yan et al., 2008) e (Oliveira et al., 2007) utilizando-se apenas realimentação de saída. Essa estratégia mostrou-se eficiente no problema de rastreamento exato de plantas lineares e não-lineares com grau relativo arbitrário.
Este artigo é basedo em resultados preliminares apresentados em (Oliveira, Hsu & Peixoto, 2010). Uma nova solução é proposta para plantas com grau relativo unitário. A idéia principal é estender o método simples apresentado por Drakunov utilizando-se apenas realimentação de saída.Isto é realizado por meio de uma parametrização adequada do sinal de controle originada da teoria de controle adaptativo por modelo de referência (Model Reference Adaptive Control - MRAC) (Ioannou & Sun, 1996). Embora, essa pareça ser uma generalização natural, uma prova rigorosa para tal combinação até agora não foi apresentada. Uma contribuição deste trabalho é demonstrar que a extensão leva ao rastreamento global exato e à estabilidade uniforme no sentido de que todos os sinais do sistema permanecem uniformemente limitados. Os resultados teóricos são ilustrados por simulações.
Uma vantagem peculiar da nova abordagem não observada plenamente pelas outras estratégias na literatura é sua robustez com respeito a mudanças frequentes da direção de controle. Essa propriedade nos motivou a aplicação da função de chaveamento periódica ao problema de controle por busca extremal via realimentação de saıda de sistemas incertos utilizando otimizadores não-derivativos (Korovin & Utkin, 1974; Teixeira & Żak, 1998). Assim sendo outra contribuição adicional é mostrar que o controlador por realimentação de saída proposto pode também ser aplicado no controle por busca extremal de sistemas incertos.
2 NOTAÇÃO E TERMINOLOGIA
A norma Euclidiana de um vetor x e a correspondente norma induzida de uma matriz A são denotadas por |x| e |A|, respectivamente. A norma ∞e de um sinal x(t) ∈ n a partir de um instante inicial t0 é definida por ; para t0 = 0, a notação ║xt║ é adotada. O símbolo "s" representa tanto a variável de Laplace quanto o operador diferencial "d/dt", de acordo com o contexto. A saída y de um sistema linear e invariante no tempo com função de transferência H(s) e entrada u é escrita y = H(s)u. Convoluções puras h(t)*u(t) são eventualmente denotadas também por H(s)*u, com h(t) sendo a resposta ao impulso de H(s). O termo genérico π(t) é dito ser exponencialmente decrescente se |π(t)| < be-a t, ∀t e constantes a > 0 e b > 0, com b podendo depender das condições iniciais do sistema. A definição de Filippov para a solução de equações diferenciais com lado direito descontínuo (Filippov, 1964) e o conceito de controle equivalente estendido (Hsu et al., 2002), válido dentro e fora da superfície de deslizamento, serão utilizados ao longo do texto.
3 FORMULAÇÃO DO PROBLEMA
Considere uma planta linear e invariante no tempo, observável e controlável descrita por (1). O modelo entrada-saída correspondente é dado por
onde G(s) = C(sI - A)-1B = kp , kp ∈ é o ganho de alta frequência (HFG) e Np(s), Dp(s) são polinômios mônicos. Os parâmetros da planta são considerados incertos, mas pertencem a um conjunto compacto Ωp tal que os limitantes para as incertezas necessários para o projeto do controlador estão disponíveis.
As seguintes hipóteses são admitidas:
(H1)G(s) é de fase mínima e estritamente própria;
(H2) a ordem (n) do sistema é conhecida;
(H3)G(s) tem grau relativo um, i.e., ρ = 1;
(H4) o HFG kp = C B é constante e um limitante inferior kp é conhecido tal que 0 <kp < |kp|;
(H5) a perturbação casada d(t) é contínua por partes e um limitante superior (t) é conhecido1 tal que |d(t)| < (t) < sup < +∞, ∀t > 0 e alguma constante sup > 0.
As hipóteses (H1)(H3) são usuais no controle adaptativo por modelo de referência (Ioannou & Sun, 1996). Em (H4), a clássica hipótese a respeito do conhecimento prévio da direção de controle é removida, i.e., kp é incerto em norma e sinal. Em (H5), a perturbação de entrada é assumida ser uniformemente limitada.
O objetivo de controle é obter convergência assintótica do erro de saída
para zero, ou para alguma vizinhança residual pequena de zero, enquanto todos os sinais do sistema permaneçam uniformemente limitados.
A trajetória desejada ymé obtida a partir de (Ioannou & Sun, 1996, Sec. 6.3.1)
onde M(s) é o modelo de referência, r(t) é o sinal de referência contínuo por partes e uniformemente limitado, km > 0 é o ganho de alta frequência de M(s) e Nm(s), Dm(s) são polinômios Hurwitz mônicos. Para plantas com grau relativo unitário, M(s) deve ser estritamente real positiva ( Strictly Positive Real - SPR) (Ioannou & Sun, 1996; Hsu & Costa, 1989). Com o intuito de simplificar a análise e o sistema de controle em malha fechada, o modelo de referência é dado por
3.1 Parametrização do Controle
Seguindo a descrição padrão do controle adaptativo por modelo de referência (MRAC) (Sastry & Bodson, 1989;Ioannou & Sun, 1996), se a planta e a perturbação d(t) são perfeitamente conhecidas, então a lei de controle que consegue o casamento ideal (ideal matching control law) entre a função de transferência do sistema em malha fechada e M(s) é dada por (Cunha et al., 2003)
onde
o vetor de parâmetros é dado por , com ∈ (n-1), ∈ e o vetor regressor é . O filtros de estado (ou filtros de entrada-saída) são dados por
onde Λ ∈
n-1 ×n-1 é Hurwitz e g ∈ n-1 é escolhido tal que o par (Λ, g) seja controlável, c.f. (Ioannou & Sun, 1996, Sec. 6.3.2) . Para n = 1 os filtros de entrada-saída não são necessários. Esses filtros de entrada-saída são necessários devido a falta da medição completa do estado da planta incerta e por isso eles substituem um observador de estado.A lei de controle (6) foi desenvolvida na literatura de controle adaptativo para plantas sem perturbação de entrada (d(t) ≡ 0). Aqui, nós incluimos o sinal Wd(s)*d(t) para cancelar o efeito de d(t). Nesta abordagem, o vetor de parâmetros ideais θ* é tal que a função de transferência da malha fechada de r para y, com u = u*, case M(s) exatamente. Em particular, este casamento com o modelo requer que = km/kp. Visto que os parâmetros da planta são incertos, θ* não está disponível. Entretanto, assume-se que θ* é limitado em norma por uma constante conhecida . Portanto, q*T w também pode ser limitado em norma com sinais mensuráveis.
Outras estruturas para a realimentação de saída poderiam ter sido empregadas. Contudo escolheu-se aqui a parametrização utilizando os filtros de entrada-saída apenas por simplicidade. Em (Oliveira, Peixoto & Hsu, 2010b), outra formulação baseada em observadores da norma é discutida, assim como sua potencialidade inclusive de lidar com sistemas fortemente não-lineares (Oliveira, Peixoto & Hsu, 2010a).
3.2 Equações de Erro
Considere o estado aumentado X: = e uma realização não-mínima { Ac, Bc, Co} de M(s) com vetor de estado Xm. Assim sendo, o estado do erro Xe: = X Xm e o erro de saída satisfazem (Hsu et al., 1994)
onde . De (9)(10), o erro de saída pode ser expresso por
4 CONTROLE POR MODOS DESLIZANTES E REALIMENTAÇÃO DE SAÍDA
Para plantas com ρ = 1 podemos utilizar o modelo de referência SPR em (5) e aplicar o (Hsu et al., 1997, Lemma 1) à equação do erro (11). Neste caso, garante-se a estabilidade exponencial global do sistema do erro e o rastreamento exato em tempo finito para o sinal de saída se u = -[sgn(kp)](t) sgn(e) e a função de modulação (t) satisfizer (t) > |u*|+δ, com u* definido em (6) e δ sendo uma constante positiva arbitrariamente pequena. Note que o sinal de kpdeve ser conhecido. A fim de atender a última desigualdade, (t) pode ser implementada como a seguir:
onde
> |θ*| é assumido conhecido e (t) é um limitante superior para |Wd(s)*d(t)|. Sabendo que Wd(s) em (7) é uma função de transferência estável e própria, então, considerando (H5), (t) pode ser escolhida a partir do conceito de FOAFs (First Order Approximation Filters) de acordo com (Hsu et al., 1997, Lemma 3):
onde λd: = mini{Re(pi)} > 0, pi são os autovalores de Λ e cd> 0 é uma constante apropriada.
No esquema acima, o sinal de kp deve ser conhecido. Com o intuito de relaxar essa condição, um novo método é proposto. A idéia central é utilizar a função de chaveamento periódica de Drakunov combinada com a estrutura de controle por modos deslizantes e realimentação de saída descrita acima.
4.1 Lei de Controle com Função de Chaveamento Periódica
O projeto do controlador por modos deslizantes para sistemas MIMO com m entradas e m saídas usualmente consiste em escolher funções de deslizamento si(x), (i = 1, ... , m) e projetar leis de controle chaveadas apropriadas tais que as superfícies si(x) = 0 enfim tornem-se superfícies de deslizamento. Contudo, este projeto geralmente requer o conhecimento da direção de controle.
Em (Drakunov, 1993), uma solução para o caso de direção de controle desconhecida foi proposta baseado em funções auxiliares σi, (i = 1, ... , m) definidas a partir de
Note que, se σi é levado em tempo finito para algum valor constante, então si converge para zero também em tempo finito. A estratégia de controle então consiste em particionar o então chamado sub-espaço de estados "estendido", formado pelos vetores σ = [σ1, σ2, ... , σm]T, em células ou regiões com fronteiras suaves definidas como o ε-grid:
Dentro de cada célula a lei de controle chaveada deve ser projetada de modo a induzir deslizamento no ε-grid para uma dada direção de controle particular. Além disso, todas as possíveis direções de controle devem ter correspondência com alguma célula na qual o modo deslizante possa ser produzido. A lei de controle chaveada deve ser projetada de tal modo que uma célula apropriada é atingida e o modo deslizante no ε-grid irá ocorrer de forma que cada σi torna-se constante após algum tempo finito. Então, o modo deslizante desejado si = 0 será alcançado em tempo finito independentemente da direção de controle da planta.
No nosso caso de controle escalar, o ε-grid (14) pode ser implementado como uma função de chaveamento periódica do tipo s = sen[σ(t) ] que se anula para σ = εk, sendo k inteiro. O deslizamento ideal na variedade s = 0 pode ser induzido utilizando-se uma lei de controle por modos deslizantes convencional contendo um termo chaveado do tipo sgn(s).
Sendo assim, o controle por modos deslizantes e realimentação de saída com função de chaveamento periódica é dado por
onde (t) é uma nova função de modulação (contínua em t) a ser definida,
e λ, ε > 0 são constantes apropriadas. O esquema proposto é representado na Fig. 1.
4.2 Realização do Modo Deslizante Ideal
Considerando (11) e M(s) em (5), e(t) satisfaz
onde Π(t) denota termos transitórios exponencialmente decrescentes devido às condições iniciais do subsistema estável, observável e não-controlável da realização não-mínima {Ac, Bc, Co} de M(s) em (11). O termo Π é limitado em norma por α|Xe(0)| eβ-t com constantes positivas α, β. De (16) e (17), obtém-se:
A seguinte proposição faz papel principal para provar a existência do modo deslizante ideal em nosso esquema via realimentação de saída e direção de controle desconhecida.
Proposição 1
Se em (15) satisfaz
com (t) definido em (12)-(13) e kp sendo um limitante inferior conhecido para |kp| em (H4), então: (a) nenhum escape em tempo finito ocorre nos sinais do sistema e (b) o modo deslizante σ = kε é alcançado em tempo finito para algum inteiro k independentemente da direção de controle.
Prova: A demonstração será conduzida em duas partes. Primeiro, mostramos que nenhum escape em tempo finito ocorre nos sinais do sistema em malha fechada notando que estes são regulares (Sastry & Bodson, 1989). Em seguida, propomos uma função de Lyapunov candidata do tipo Lure que permite concluir a existência de modo deslizante ideal na variedade σ = kε, independentemente de sgn(kp), se a função de modulação for projetada para suplantar os termos que aparecem na dinâmica de σ em (19), que serão tratados como perturbação.
[Propriedade (a)] - A partir de (15) e (20), pode-se escrever ║t║, ║ut║ < Kw║wt║ + Krd, onde Kw, Krd são constantes positivas. Essa desigualdade e (9)-(10) garantem que os sinais do sistema são regulares e que podem crescer no máximo exponencialmente (Sastry & Bodson, 1989). Portanto, nenhum escape em tempo finito pode ocorrer.
[Propriedade (b)] - Com base na teoria de estabilidade de Lyapunov de sistemas não-suaves (Shevitz & Paden, 1994), considere a seguinte função não-negativa do tipo Lure (Khalil, 2002)
Visto que σ(t) e S1(σ(t)) são ambas diferenciáveis (isto é verdade a menos de um conjunto de medida nula), a derivada temporal de S1 ao longo das trajetórias de (19), , é dada por
onde a(t): = [- γe kp u*+ λ sgn(e)]/kp. Note que em (20) satisfaz
com uma constante arbitrária positiva δ.
Como não é possível ocorrer o escape em tempo finito de acordo com a [Propriedade (a)] da proposição, se sgn(kp) < 0, pode-se concluir a partir de (22)-(23) que 1< -|kp|δ + |Π| quase em todo lugar (almost everywhere), i.e., a menos de um conjunto de medida nula. Além disso, uma vez que Π decresce exponencialmente, existe um tempo finito ta > 0 tal que 1< δa (ou S1
1< δaS1), ∀t > ta e 0 < δa < |kp|δ. Assim, utilizando-se o Lema da Comparação (Filippov, 1964), S1(t) < δa (t ta) + S1(ta), ∀t > ta. Com algum abuso de notação, S1(σ(t)) foi substituído por S1(t). Consequentemente, existe um instante de tempo finito tb > ta tal que S1(t) = 0, ∀t > tb. Adicionalmente, de (21), os pontos correspondentes σ = kε para os quais S1(σ) = 0 ocorrem apenas para valores pares de k, ver Fig. 2 (a).Analogamente, se sgn(kp) > 0 e (23) é verificada, pode-se escolher:
S2(σ) = ε S1 (σ)
(note que ), e provar que os pontos correspondentes σ = kε para os quais S2(σ) = 0 ocorrem apenas para valores ímpares de k, ver Fig. 2 (b).
Nas vizinhanças de σ = kε, sgn (sen [σ]) = sgn (σ kε) para k par ou sgn (sen[σ] ) = - sgn (σ kε) para k ímpar. Assim sendo, com (20), tem-se que, para k par (sgn(kp) < 0) ou para k ímpar (sgn(kp) > 0),
4.3 Análise de Convergência
O resultado principal é agora estabelecido no seguinte teorema:
Teorema 1:Considere a planta (1), dada na forma entrada-saída por (2), com lei de controle (15), função de modulação (20) e o modelo de referência (4). Assuma que (H1)-(H5) sejam satisfeitas. Então, independentemente da direção de controle, o rastreamento exato da saída e ≡ 0 é atingido em tempo finito, o estado completo do erro Xe de (9)-(10) tende exponencialmente para zero e todos os sinais do sistema em malha fechada permanecem uniformemente limitados.
Prova: A partir da Proposição 1, para qualquer sgn(kp), o deslizamento ocorre em uma das variedades σ = kε, ∀t > t1, para algum tempo finito t1> 0. Depois disso, = 0 e a partir de (18), obtém-se a seguinte dinâmica do erro de saída durante o deslizamento:
Assim sendo, eė = - λ|e|, concluindo-se que e → 0 em algum tempo finito t2> t1.
Para concluir que o estado completo do erro Xe tende exponencialmente para zero e que todos os sinais do sistema em malha fechada permanecem uniformemente limitados basta mostrar que a dinâmica de Xe é Input-to-State-Stable (Jiang et al., 1994; Sontag & Wang, 1997) com respeito ao erro de rastreamento.
Assim sendo, considere a realização detectável e estabilizável (9)-(10) de M(s). Visto que e = CoXe é uma saída de grau relativo um para M(s), o sistema (9)-(10) pode ser linearmente transformado na forma regular (Utkin, 1977; Hsu et al., 2003; Hsu et al., 2002):
e
5 DIREÇÃO DE CONTROLE VARIANTE NO TEMPO
Nesta seção consideramos a robustez do algoritmo do Teorema 1 com respeito a variação no tempo do sinal de kp. Por simplicidade, assuma que a variação de kp é dada por saltos e que a condição de controlabilidade |kp| > kp seja mantida ∀t. Assim, visto que as funções S1 ou S2 sempre decrescem com uma taxa mínima (vide prova da Proposição 1), é fácil concluir que:
-
Se o intervalo de tempo entre os saltos é longo o bastante, então a convergência para um equilíbrio σ = kε (para um k par ou ímpar) e e = 0 serão alcançadas entre duas mudanças de sinal de kp. Quando a direção de controle muda, o equilíbrio anterior torna-se instável e o sistema se move em direção ao equilíbrio-σ vizinho, distante e do anterior (por exemplo, veja Fig. (2)).
Vamos denotar por σ0 o valor do equilíbrio-σ antes da mudança de direção de controle. Assim sendo, após ocorrer a mudança, σ = σ0 + , onde é a variação de σ durante a transição para o novo ponto de equilíbrio. Claramente, || < ε. Agora, introduzindo a variável z = e , obtém-se de (18):
pela qual pode-se concluir facilmente que, durante a transição para o novo equilíbrio, |z(t)| < ║t║ < ε é verificada visto que |z| < ou sgn(z) = sgn(). Consequentemente, durante o transitório, |e(t)| < 2ε. Portanto, o transitório do erro de rastreamento causado por mudanças da direção de controle pode ser feito arbitrariamente pequeno reduzindo-se ε.
-
Se o tempo entre as mudanças é pequeno o bastante, σ será limitado pela vizinhança-ε à direita ou à esquerda de um ponto de equilíbrio "par" ou "ímpar". Assim sendo, o erro de rastreamento será novamente limitado por |e(t)| < 2ε.
Embora, a solução para o problema geral de rastreamento de sistemas incertos com dimensão arbitrária e direção de controle variante no tempo ou dependente do estado via realimentação de saída ainda esteja em aberto, nossa contribuição dá um resposta parcial para o problema, quando consideramos sistemas com grau relativo um e uma variação descontínua do HFG por saltos.
Mais adiante, esse resultado nos motivará a explorar o algoritmo proposto para resolver o problema de controle por busca extremal (Ariyur & Krstić, 2003), onde as mudanças do sgn(kp) ocorrem de modo contínuo.
6 RESULTADOS DE SIMULAÇÃO
Para ilustrar o desempenho do controlador proposto, considere a planta linear instável (2) com função de tranferência G(s) = , kp = 1 e grau relativo ρ = 1. O objetivo de controle é rastrear a saída do modelo de referência M(s) = acionado por r(t) = 2 sen(2t), enquanto a perturbação de entrada d(y, t) = sen(4t) + y2/(y2 + 1) é rejeitada. A planta é assumida incerta, e apenas o limitante em norma para θ* é conhecido (vide (12)). Assim, a função de modulação (t) em (15) é implementada utilizando-se (20) e (12), com = 5 e δ = 0.1. Os demais parâmetros envolvidos em (15), (13) e (20) são: ε = 1, cd = 1, λd = 1.8, (t) = 2, kp = 0.5, γ = 3 e λ = 10. Além disso, Λ = 2 e g = 1 em (8).
O método de Euler com passo de integração h = 10-4 s é usado para a integração numérica. As condições iniciais da planta são y(0) = 5, (0) = 2 e uma estimativa incorreta da direção de controle é assumida em t = 0 s, isto é, sgn(kp) < 0.
A Fig. 3 (a), mostra que um perfeito seguimento do modelo é obtido com o controlador proposto. A Fig. 3 (b)-(c) mostra o correspondente sinal de controle e a variável de deslizamento σ. Pode-se notar que o deslizamento ideal σ = 4 é atingido em tempo finito (t ≈ 0.05 s) e que o sistema é capaz de rejeitar a perturbação d(t). A Fig. 4 apresenta o desempenho do sistema de controle sujeito à direção de controle variante no tempo utilizando-se ε = 1. Uma notável alteração no erro de rastreamento do sistema (aparecimento de picos ou distúrbios na resposta) pode ser observada após trocas na direção de controle nos instantes t = 1, 2, ..., 9 s, vide Fig. 4 (a) e (c). A Fig. 4 (b) aponta o comportamento da variável de deslizamento σ nesta situação com ε = 1.
Por outro lado, quando ε = 0.01, o erro de rastreamento fica praticamente inalterado para essas mesmas variações na direção de controle. A Fig. 5 (a)-(c) ilustra a excelente resposta do esquema proposto.
7 OTIMIZADOR NÃO-DERIVATIVO APLICADO À BUSCA EXTREMAL
Em muitas aplicações, o ponto de operação desejado ou "ótimo" de um processo ocorre justamente num ponto de extremo (máximo ou mínimo) de uma não-linearidade que está relacionada com a eficiência do sistema. Este problema já foi formulado há muito tempo (1940-1960), mas o interesse foi reavivado graças a recente provaformal de estabilidade de esquemas gerais de controle extremal (Ariyur & Krstić, 2003).
Na literatura moderna, tal controle é referido por"Extremum Seeking Control" (ESC). O livro recente (Ariyur & Krstić, 2003) inclui diversas aplicações, bem como extenso material teórico contendo provas de estabilidade para o controle extremal. Na área de Controle de Processos Industriais, diversos artigos tratam o problema de otimização em tempo real e uma das abordagens mais utilizadas é o ESC. Outra aplicação recente se refere à área de robótica. Trata-se de um importante problema de navegação que consiste da busca de uma fonte de emissão de algum sinal medido por sensores de um robô móvel que não dispõe de medida de sua posição (Zhang et al., 2007). Também, na indústria automobilística pode-se citar o problema de projetar sistemas de controle de freio ABS (Antilock Bracking System) (Drakunov et al., 1995; Will et al., 1998). Neste caso, o ESC aparece de modo natural, pois se deve controlar a rotação das rodas do veículo necessária para maximizar a força de atrito com o solo.
O ESC, ou simplesmente, Controle Extremal, tem conexão estreita com o bem conhecido problema de Otimização em Tempo Real. Os mais populares algoritmos para otimização sem restrição utilizam informação da derivada ou do gradiente da função objetivo. Entretanto, em muitos problemas de controle extremal mencionados acima o gradiente da função objetivo pode não ser acessível em tempo real ou ser muito dispendioso ter essa informação. Portanto, existe uma necessidade clara de algoritmos de otimização não-derivativos (Korovin & Utkin, 1974; Teixeira & Żak, 1998).
Como visto na Seção 5, o método da função periódica é robusto com respeito a mudanças do tipo salto na direção de controle. Conforme será mostrado a seguir, toda vez que o sistema se aproxima de um ponto de extremo e cruza-o, isso corresponderá a mudanças do sinal de kp, mas que dessa vez ocorrem de modo contínuo. Demonstra-se também que o algoritmo funciona mesmo quando a condição de controlabilidade |kp| > kp falha temporariamente. Isso nos motiva explorar o algoritmo da função periódica para resolver o problema de controle por busca extremal.
Assim sendo, inspirados nas idéias de (Korovin & Utkin, 1974; Pan et al., 2003), nas quais interpreta-se algoritmos de otimização como sistemas de controle em malha fechada, propõe-se nesta seção um otimizador não-derivativo robusto unidimensional baseado na função de chaveamento periódica descrita anteriormente. A diferença essencial com relação às abordagens de Ariyur & Krstić (2003) reside no fato de que, em vez de adaptação, utiliza-se na abordagem aqui proposta modos deslizantes, além de não se requerer sinais de excitação (tipicamente senoidais) para "estimar" o gradiente da função objetivo. Uma das vantagens da abordagem escolhida neste projeto com respeito, por exemplo, a (Korovin & Utkin, 1974) ou (Pan et al., 2003) é poder garantir resultados de convergência não apenas locais (ou seja, para quaisquer condições iniciais). Outra contribuição seria a potencialidade de obtermos algoritmos para o controle extremal apenas com realimentação de saída para sistemas incertos.
7.1 Formulando o Problema de Busca Extremal
Considere que a função suave y = h(x) a qual deseja-se maximizar seja desconhecida (i.e., não se conhece h(·) ou o seu gradiente) e tenha um único ponto de máximo x* no interior do intervalo fechado [a, b]. Assume-se também que, ∀x ∈ [a, b], existam constantes finitas L > 0 e > 0 tais que
A função objetivo y = 10x/(4 + x2) usada em nosso problema de otimização/busca extremal a seguir tem um ponto de máximo x* = 2 no intervalo de interesse [a, b] = [0, 10], como mostrado na Fig. 6 (linha tracejada). O valor absoluto da derivada de y com relação a x é apresentado na Fig. 7, onde os limitantes inferior L = 0 e superior > 2.5 são claros.
A seguir, descreve-se o funcionamento do otimizador não-derivativo proposto. Primeiramente, mostraremos que o problema de busca extremal pode ser reescrito como um problema de rastreamento em que não se conhece a informação da direção de controle.
Considere o seguinte sistema auxiliar de primeira ordem com saída não-linear e HFG dependente do estado x:
onde = kp(x) u, kp(x) = pode ser considerado como o HFG e a condição inicial é x(0) = 1 (e y(0) = 2).
Visto que = 0, o HFG kp(x) não tem um limitante inferior kp > 0 ∀x ∈ [0, 10]. Contudo, para um dado Δ > 0, existe kp > 0 tal que kp < |kp(x)|, ∀x ∈ : = [0, x*- ] ∪ [x* + , 10], vide Fig. 7.
O modelo de referência é escolhido como sendo
de modo que a saída do modelo ym(t) = t seja estritamente crescente com o tempo.
Note que a escolha desse modelo é de fundamental importância uma vez que nossa estratégia é baseada no seguimento de trajetória e neste caso quando fizermos a saída da planta y rastrear a saída do modelo ilimitado ym, iremos forçar que y atinja seu valor máximo y* = h(x*). Para contornar o problema de termos um sinal ilimitado na malha fechada, podemos saturar a saída do modelo em um limitante superior grosseiro conhecido para y* e assim não afetar em nada o desempenho do sistema. Neste exemplo a amplitude do sinal ymfoi saturada no valor 100.
Assim sendo, a partir da definição do erro de rastreamento e: = y - ym, obtém-se a seguinte equação dinâmica para e(t):
No que se segue, prova-se que a lei de controle (15)-(16), com ganho de controle ou função de modulação
(δ > 0 é uma constante arbitrária pequena), leva o estado x para uma vizinhança-Δ (x ∉ ) do ponto de máximo desconhecido x* = 2 definida por Δ = {x: |x - x*| < Δ/2}. Note que isso não implica que x(t) permanece em Δ, ∀t.
7.2 Análise de Convergência
A análise de convergência é conduzida em dois passos. No primeira passo vamos demonstrar que a vizinhança
Δ é atrativa. Isto não significa que x(t) permaneça em Δ, ∀t. Podem ocorrer oscilações de x(y) em torno de x* (y*). No segundo passo vamos provar que a amplitude das oscilações de y em torno de y* podem ser reduzidas se reduzirmos o parâmetro ε do sinal de controle.PASSO 1: Atratividade de
ΔPrimeiramente, note que x pode crescer no máximo linearmente visto que a norma de u em (15) é majorada por uma constante. Assim sendo, assuma que x(t) ∈ , ∀t. Assim como na prova da Proposição 1, pode-se verificar que i< -|kp|δ (para i = 1, 2), uma vez que kp < |kp(x)| para x ∈ . Note que neste caso Π ≡ 0 e a(t) = [λ sgn(e)-1]/kp. Portanto, pode-se concluir que ∃ts < ∞ tal que Si(t) = 0, ∀t > ts e um modo deslizante em σ será alcançado em tempo finito. Consequentemente, = 0 e eė = - λ|e| < 0, ∀t > ts. Para t suficientemente grande, ym > y* > y e sgn(e) = -1, assegurando que y cresce com taxa constante ( = 1 + λ), isto é, y se aproxima de y*. Então, x é levado para o interior de Δ, o que é uma contradição. Portanto, Δ é alcançada em tempo finito, independentemente de sgn(kp). Consequentemente, x(t) permanece ou oscila em torno de Δ, e y em torno de y*, ∀t.
Essas oscilações vêm das mudanças recorrentes na direção de controle no ponto extremo (x*, y*) onde kp(x*) = 0 ou são devido à perda de força de controle sempre que kp(x) → 0 e a relação kp < |kp(x)| é violada. Durante essas oscilações, σ vai de uma superfície de deslizamento σ = kε (k par quando sgn(kp) < 0) para outra (k ímpar quando sgn(kp) > 0).
PASSO 2: Oscilações de Ordem (ε)
A seguir mostra-se que as oscilações em torno de y* podem ser restritas a ordem (ε), com ε em (15). Note que Δ pode ser feita arbitrariamente pequena permitindo-se um kp menor (vide Fig. 7). Assim, se x(t) permanece em Δ, ∀t, a vizinhança correspondente de y* pode ser feita de ordem (ε) com um kp apropriado. Caso contrário, se x oscila em torno de Δ, o mesmo é verificado visto que o tempo gasto para alcançar um modo deslizante em σ é também de ordem (ε).
De fato, recordando que após um tempo finito ty* > 0, sgn(e) = -1 é satisfeito, pode-se concluir a partir de (16) que
Note que, quando σ(t) está em deslizamento, então Δ é invariante. Agora, se o sistema atinge a fronteira de Δ e σ(t) não está em deslizamento, considere t2> t1 > ty* e suponha que t ∈ [t1, t2], onde t1 é o tempo no qual x(t) alcança a fronteira de Δ e t2 é o primeiro instante de tempo quando σ(t) atinge a próxima superfície de deslizamento σ(t) = σ(t2) ou x(t) chega à fronteira de Δ novamente. Note que, para t ∈ [t1, t2], tem-se x(t) ∈ e |σ(t) - σ(t1)| < 2ε.
A partir de (33), pode-se escrever
onde : = σ(t) - σ(t1), : = y(t) - y(t1), δM = 1 quando ym(t) = t e δM = 0 quando ym está saturado. Além disso, de (34), pode-se também escrever
Por hipótese, x(t) ∈ para t ∈ [t1, t2]. Então, a partir de (18), (31) e (32), tem-se |(t)| > δ, ∀t ∈ [t1, t2], e consequentemente que (t - t1) < ||/δ. Assim sendo, relembrando que || < 2ε, pode-se garantir que (t - t1) e em (35) são de ordem (ε).
7.3 Simulações Numéricas
Nas simulações a seguir, nós ajustamos o limitante inferior kp = 0.5ε em (32) e inicializamos ε com um valor não tão pequeno. Depois decrescemos ε até que a variação de y seja enfim pequena, i.e., |y - y*| → (ε). Os parâmetros de projeto considerados foram: ε = 0.01, λ = 0.1 e δ = 0.1.
Como mostrado nas Figs. 8 e 9, y rastreia ym até que x alcança a vizinhança do ponto de máximo x* = 2. Posteriormente, o rastreamento exato não é mais obtido, porém y fica "preso" em alguma vizinhança-ε de y* = 2.5 (vide Fig. 6) e ym cresce até atingir o valor 100 da saturação.
Como podemos observar comparando a Fig. 9 e a Fig. 10, a amplitude das oscilações de x em torno de x* pode ser reduzida como desejado apenas reduzindo-se suficientemente a distância ε entre as variedades.
Na Fig. 10, considerando ε = 0.1, pode-se checar a variável de deslizamento σ ao longo do tempo e as respectivas mudanças por entre as variedades-σ (k é par ou ímpar) toda vez que x cruza x* = 2.
Note que, a partir de (33), σ → ∞ quando t → +∞. Entretanto, esse fenômeno não é nocivo uma vez que σ é apenas uma escala modificada de tempo no argumento da função seno na lei de controle (15). Além disso, esse problema pode ser evitado através de uma simples reinicialização do integrador em (16) que é realizada a cada período de 10 segundos. Para tal reinicialização utilizamos o mesmo sistema adotado em estratégias antiwindup assim como apresentado em (Aström & Wittenmark, 1997, page 310). Outras possiblidades poderiam ser adotadas para esse esquema de reinicialização tais como os Clegg integrators propostos em (Clegg, 1958) e revisitado com demonstrações experimentais em (Zheng et al., 2000).
8 TRABALHOS FUTUROS
O travamento da roda durante a frenagem impacta de forma adversa a estabilidade do veículo. Assim, o sistema de freio ABS foi projetado para prevenir o travamento das rodas, reduzir a distância de parada do veículo e melhorar sua dirigibilidade. Um melhor desempenho do sistema ABS depende da identificação adequada do tipo de superfície da pista. Até o momento, não há sensores que possam identificar corretamente o tipo de superfície e tornar esta informação disponível para o controlador ABS. Contudo, o tipo de superfície pode ser estimado a partir da pressão exercida pelo freio, medidas de escorregamento da roda e comparações entre índices de desaceleração (Will et al., 1998; Drakunov et al., 1995).
Um dos objetivos do sistema ABS é regular o escorregamento da roda de forma que o coeficiente de adesão da pista seja maximizado. Isto implica na minimização da distância de parada do veículo. Todavia, o coeficiente de adesão ótimo desejado depende do tipo de superfície da pista. Por exemplo, esse valor ótimo para uma pista de gelo é diferente do valor para uma pista de asfalto seco. Curvas típicas que relacionam o escorregamento das rodas (ζ) versus o coeficiente de adesão ou atrito (µ) são semelhantes às apresentadas na Fig. 11. Nesta figura mostramos três curvas características para diferentes tipos de pista: seca, molhada e de gelo.
Primeiro, relembrando a equação do coeficiente de escorregamento ζ apresentada em (Ariyur & Krstić, 2003), temos:
onde v é a velocidade linear, w a velocidade angular e R o raio da roda. Deste modo, temos um ζmin = 0 quando v = wR (carro em movimento) e ζmax = 1 quando w = 0 (travamento da roda).
Na frenagem sem ABS, quando o motorista pisa no freio, ele faz instantâneamente w = 0 (trava a roda) com o objetivo de parar o carro. No entanto, o coeficiente de atrito µ(ζ) não é máximo (ótimo) para o valor de ζ = 1 (ver Fig. 11). Assim, o carro continua em movimento com as rodas travadas até que depois de um certo tempo aquele atrito referente ao escorregamento máximo (ζ = 1) faz com que o carro pare.
No freio ABS é feito algo diferente. Quando o motorista pisa no freio, w não vai diretamente para zero. Primeiro é feita a busca pelo valor ótimo ζ* correspondente ao maior coeficiente de atrito. Com esse valor em mãos, o controlador de torque ajusta w, de forma a manter ζ ≈ ζ* (correspondendo a um valor próximo ao máximo atrito da pista) e consequentemente o veículo pára mais rapidamente (sem travar as rodas) do que comparado ao sistema de freio convencional.
Uma idéia imediata para trabalho futuro é utilizar o otimizador proposto acima para fazer uma busca on-line do valor ótimo do escorregamento da roda que corresponde a máxima desaceleração do veículo. Assim poderíamos usar a saída do otimizador não-derivativo como setpoint de uma malha de controle de frenagem (controle de torque). Neste caso, o controle de frenagem e o otimizador são utilizados juntos para regular o torque de frenagem do veículo de modo a manter o escorregamento da roda em seu valor ótimo e minimizar assim a distância de parada. Além disso, o controlador proposto não requereria um conhecimento a priori do tipo de superfície da pista nem a relação entre o coeficiente de adesão e o escorregamento da roda.
Outra aplicação que merece destaque é o controle de eletrônica de potência de painéis fotovoltaicos que utiliza o método MPPT (Maximum Power Point Tracking), ver (Brunton et al., 2010).
9 CONCLUSÕES
Neste artigo foi proposto um controlador por modelo de referência e modos deslizantes baseado em função de chaveamento periódica e realimentação de saída para plantas SISO lineares, incertas com grau relativo unitário e direção de controle desconhecida. A abordagem resultante garante convergência em tempo finito do erro de rastreamento para zero e também convergência exponencial global do estado completo do erro para zero. Resultados de simulação foram apresentados para ilustrar o desempenho do controlador. Além do problema de rastreamento, o método proposto mostrou-se eficaz também no problema de otimização em tempo real aplicado ao controle por busca extremal.
AGRADECIMENTOS
Este trabalho contou com o apoio financeiro da FAPERJ, CAPES e do CNPq.
Artigo submetido em 24/10/2010 (Id.: 01210)
Revisado em 28/12/2010
Aceito sob recomendação do Editor Associado Prof. Daniel Coutinho
Referências bibliográficas
- Ariyur, K. B. & Krstić, M. (2003). Real-Time Optimization by Extremum-Seeking Control, John Wiley & Sons, Inc.
- Bartolini, G., Ferrara, A. & Giacomini, L. (2003). A switching controller for systems with hard uncertainties, IEEE Trans. on Circuits and Sytems 50(8): 984990.
- Bessa, W. M. & Barreto, R. S. S. (2010). Controle por modos deslizantes nebuloso adaptativo de sistemas incertos não-lineares, Controle & Automação 21: 117126.
- Brunton, S. L., Rowley, C. W., Kulkarni, S. R. & Clarkson, C. (2010). Maximum power point tracking for photovoltaic optimization using ripple-based extremum seeking control, IEEE Trans. on Power Electronics 25: 25312540.
- Clegg, J. C. (1958). A nonlinear integrator for servomechanisms, Transactions of A.I.E.E., Part II 77: 4142.
- Cunha, C. D., Araújo, A. D. & Mota, F. C. (2009). Controlador em modo dual adaptativo robusto para plantas com grau relativo arbitrário, Controle & Automação 20: 7282.
- Cunha, J. P. V. S., Hsu, L., Costa, R. R. & Lizarralde, F. (2003). Output-feedback model-reference sliding mode control of uncertain multivariable systems, IEEE Trans. Aut. Contr 48(12): 22452250.
- Cunha, J. P. V. S., Hsu, L., Costa, R. R. & Lizarralde, F. (2005). Controle de sistemas lineares incertos por modos deslizantes e observador de alto ganho sem peaking, Controle & Automação 16: 449466.
- Drakunov, S. (1993). Sliding mode control of the systems with uncertain direction of control vector, Proc. IEEE Conf. on Decision and Control, San Antonio, pp. 24772478.
- Drakunov, S., Özgüner, U., Dix, P. & Ashrafi, B. (1995). control using optimum search via sliding modes, IEEE Trans. Contr. Syst. Tech. 3(1): 7985.
- Filippov, A. F. (1964). Differential equations with discontinuous right-hand side, American Math. Soc. Translations 42(2): 199231.
- Hsu, L., Araújo, A. D. & Costa, R. R. (1994). Analysis and design of I/O based variable structure adaptive control, IEEE Trans. Aut. Contr. 39(1): 421.
- Hsu, L. & Costa, R. R. (1989). Variable structure model reference adaptive control using only input and output measurement: Part I, Int. J. Contr. 49(2): 399416.
- Hsu, L., Costa, R. R. & Cunha, J. P. V. S. (2003). Model-reference output-feedback sliding mode controller for a class of multivariable nonlinear systems, Asian Journal of Control 5(4): 543556.
- Hsu, L., Cunha, J. P. V. S., Costa, R. R. & Lizarralde, F. (2002). Multivariable output-feedback sliding mode control, in X. Yu & J.-X. Xu (eds), Variable Structure Systems: Towards the 21st Century, Springer-Verlag, pp. 283313.
- Hsu, L., Lizarralde, F. & Araújo, A. D. (1997). New results on output-feedback variable structure adaptive control: design and stability analysis, IEEE Trans. Aut. Contr. 42(3): 386393.
- Ioannou, P. A. & Sun, J. (1996). Robust Adaptive Control, Prentice-Hall.
- Jiang, Z. P., Teel, A. R. & Praly, L. (1994). Small-gain theorem for ISS systems and applications, Mathematics of Control, Signals and Systems (7): 95120.
- Khalil, H. K. (2002). Nonlinear Systems, 3rd edn, Prentice Hall.
- Korovin, S. K. & Utkin, V.I. (1974). Using sliding modes in static optimization and nonlinear programming, Automatica 10: 525532.
- Oliveira, T., Hsu, L. & Peixoto, A. J. (2010). Controle por realimentação de saída e modos deslizantes via função de chaveamento periódica aplicado ao problema de busca extremal, Congresso Brasileiro de Automática .
- Oliveira, T. R., Peixoto, A. J. & Hsu, L. (2010a). Controle por realimentação de saída para sistemas incertos fortemente nãolineares, Controle & Automação 21: 6981.
- Oliveira, T. R., Peixoto, A. J. & Hsu, L. (2010b). Sliding mode control of uncertain multivariable nonlinear systems with unknown control direction via switching and monitoring function, IEEE Trans. Aut. Contr. 55(4): 10281034.
- Oliveira, T. R., Peixoto, A. J., Nunes, E. V. L. & Hsu, L. (2007). Control of uncertain nonlinear systems with arbitrary relative degree and unknown control direction using sliding modes, Int. J. Adaptive Contr. Signal Process 21: 692707.
- Pan, Y., Özgüner, U. & Acarman, T. (2003). Stability and performance improvement of extremum seeking control with sliding mode, Int. J. Contr. 76(9/10): 968985.
- Sastry, S. & Bodson, M. (1989). Adaptive Control: Stability, Convergence and Robustness, Prentice-Hall.
- Shevitz, D. & Paden, B. (1994). Lyapunov stability theory of nonsmooth systems, IEEE Trans. Aut. Contr. 39(9): 1910 1914.
- Sontag, E. D. & Wang, Y. (1997). Output-to-state stability and detectability of nonlinear systems, Systems & Contr. Letters 29: 279290.
- Teixeira, M. C. M. & Żak, S. H. (1998). Analog neural nonderivative optimizers, IEEE Trans. on Neural Networks 9(4): 629638.
- Utkin, V.I. (1977). Variable structure systems with sliding modes, IEEE Trans. Aut. Contr. 22: 212222.
- Will, A. B., Hui, S. & Żak, S. H. (1998). Sliding mode wheel slip controller for an antilock braking system, Int. J. Veh. Design 19(4): 523539.
- Yan, L., Hsu, L., Costa, R. R. & Lizarralde, F. (2008). A variable structure model reference robust control without a prior knowledge of high frequency gain sign, Automatica 44: 1036 1044.
- Zhang, C., Arnold, D., Ghods, N., Siranosian, A. & Krstić, M. (2007). Source seeking with non-holonomic unicycle without position measurement and with tuning of forward velocity, Systems & Contr. Letters 56: 245252.
- Zheng, Y., Chait, Y., Hollot, C., Steinbuch, M. & Norg, M. (2000). Experimental demonstration of reset control design, Control Engineering Practice 8: 113120.
Datas de Publicação
-
Publicação nesta coleção
26 Set 2011 -
Data do Fascículo
Ago 2011
Histórico
-
Revisado
28 Dez 2010 -
Recebido
24 Out 2010