A Vós a Razão
Um pouco sobre compreensão de atividade humana
Por Eduardo Marques*
Aquando do convite para escrita neste espaço, pensei se a minha experiência no INESC TEC estaria suficientemente madura para escrever algo interessante que se enquadrasse neste âmbito. Talvez sim, talvez não, mas decidi aceitar dado acreditar ser uma boa oportunidade para expor a minha temática de investigação – compreensão de atividade humana.
A escolha deste tema deveu-se principalmente a dois fatores: experiência e paixão. A experiência que obtive ao longo da minha carreira profissional permitiu-me desenvolver competências técnicas e adquirir conhecimentos científicos complementares que considero relevantes: desde a simulação de ambientes físicos, passando pela animação 3D e desenvolvimento de videojogos, prosseguindo para a análise de gestos corporais no espaço para espetáculos performativos, até ao desenvolvimento de tecnologias interativas de entretenimento e interfaces naturais-tangíveis. A paixão pela técnica de observação tão comum a todos, tão transversal a tudo e tão presente em todos os momentos.
O poder de observação confere aos seres humanos, a uns mais do que outros, capacidades cognitivas que lhes permitem comunicar, conviver e crescer como seres sociais. São estes mesmos mecanismos percetivos que são ativados constantemente, quer de forma intencional, quer subconscientemente, pelo nosso cérebro e sensores corporais e que nos permitem analisar o comportamento das pessoas. A comunicação não-verbal está repleta de sinais visuais cuja descodificação é tão natural para nós que muitas vezes basta um só olhar, uma só imagem, para intuitivamente iniciarmos um processo de análise sociopsicológica. É aqui que a minha investigação se enquadra, estando mais direcionada para a vertente socio-motora. Com este tema consigo interligar duas disciplinas a nível técnico: visão por computador, para extrair características através da análise de vídeo proveniente de diversos tipos de câmaras (IPs, térmicas, RGBD); machine learning, para construir modelos que relacionem as características extraídas e criar algoritmos que aprendam a estrutura e evolução desses mesmos modelos.
Este tema trata de uma vasta e diversa coleção de dados o que pressupõe uma complexa representação algorítmica e elevado processamento computacional. O seu estudo na literatura científica abrange diversas áreas – tendo sido na área da psicologia, mais concretamente no domínio da perceção da locomoção biológica, que um brilhante trabalho, que remonta para os anos 70 do século passado e que foi levado a cabo por Gunnar Johansson – demonstrou que o seguimento de um pequeno número de marcas, devidamente posicionadas nas articulações dos seres vivos, é suficiente para adquirir informação biológica do movimento, tipo de ação cinemática, e consequentemente descrever e distinguir o tipo de forma do ser vivo que o executa.
Esse trabalho pioneiro despertou o interesse da comunidade científica ligada à visão computacional, entre outras, para o problema da análise da atividade humana. Ao longo da última década do século passado foram criados diversos trabalhos que mostraram inúmeras abordagens a este problema revelando vantagens e desvantagens, e constatando sempre a incapacidade de atingir camadas superiores de semântica. Semântica?! Sim, semântica, um conceito nuclear nesta área que permite definir e classificar diversas atividades humanas em termos de complexidade: gestos, ações, interações e atividade coletiva. Estes níveis descrevem uma ontologia, sendo esta a que apresenta maior consenso científico, que define uma hierarquia de componentes e relações para cada camada de semântica. Só no início deste século é que foram atingidos resultados significativos para a análise de atividades com maior nível de semântica. São este tipo de atividades, a nível de interações e relações de grupo de pessoas, enquadradas num contexto social que, mais especificamente, representam o meu trabalho de investigação.
O estudo desta temática tem permitido a colaboração de grupos de investigação de várias áreas tais como neurociência, psicologia social, física, redes e telecomunicações, ciências da computação, entre outros. Esta sinergia é essencial não só para a obtenção de melhores resultados, como também para a correta formulação de perguntas de investigação que assegurem a evolução deste estudo. De facto, este tema aborda conceitos técnicos tão diversos como tracking, análise de postura corporal, sistema de cognição humano, análise facial, linguística, entre outros, onde é obrigatória a cooperação entre pessoas especializadas nessas áreas e a uniformização de uma linguagem transversal para todos.
Para culminar gostaria de efetuar alguns agradecimentos: ao Prof. Artur Pimenta Alves e Prof. Carlos Guedes pelo apoio e integração no início do meu doutoramento no plano de UT Austin|Portugal, aos meus orientadores Prof. Ricardo Morla e Prof. Jaime S. Cardoso por toda a orientação e crítica construtiva, ao Augustin Olivier e Carlos Pinho pela defesa dos meus interesses como investigador, e a todos os meus colegas do grupo VCMI, que está de parabéns pelo seu crescimento constante e por todo o trabalho de elevada qualidade que tem vindo a demonstrar.
*Colaborador da Unidade de Telecomunicações e Multimédia (UTM)