Scripts para ciência de dados integram componentes de software em atividades que transformam dados para gerar resultados científicos. A rastreabilidade de artefatos envolvidos nos scripts proporciona acesso a essas atividades de ponta a ponta, promovendo a confiança e a reprodução dos resultados. Torna-se essencial adotar técnicas para rastrear e correlacionar os artefatos relevantes produzidos pelas atividades dos scripts. Os dados de proveniência, conforme definidos pelo padrão W3C PROV, fornecem uma abstração que representa e correlaciona os artefatos a serem rastreados. Além de representar metadados sobre esses artefatos, a proveniência provê um caminho de derivação de dados, permitindo que a geração do resultado seja seguida automaticamente.
A coleta de dados de proveniência vem sendo incorporada em ambientes de execução de scripts para diversas aplicações como em aprendizado de máquina, com o objetivo de fornecer segurança, confiança, reprodutibilidade e explicabilidade dos resultados dos scripts. No entanto, frequentemente, o uso da proveniência é limitado aos metadados dos artefatos, sem acesso ao seu caminho de derivação, o que restringe a confiança e a reprodutibilidade dos resultados.
Apesar de existir há muitos anos, o uso e a consulta de dados de proveniência ainda são desafiadores. Esta palestra destaca diferentes usos da proveniência para confiança, como na ciência de dados, detecção de ameaças à segurança e autenticidade de artefatos. São apresentados os desafios atuais para coletar a proveniência e rastrear o caminho de derivação dos artefatos, com exemplos de uso da proveniência em scripts de aprendizado de máquina.
Marta Mattoso é professora titular do Programa de Engenharia de Sistemas e Computação da COPPE na Universidade Federal do Rio de Janeiro. Seus interesses em Ciência de Dados incluem aspectos de gerência de dados em larga escala, com ênfase em dados de proveniência para apoiar análises de humanos na execução paralela de múltiplas tarefas em ambientes de alto desempenho. Ela orientou mais de 90 alunos de pós-graduação e na graduação foi paraninfa e homenageada em turmas de formandos da Engenharia de Computação da UFRJ. Foi homenageada como Pesquisadora no Simpósio Brasileiro de Bancos de Dados em 2005 e foi agraciada com o Mérito Científico da Sociedade Brasileira de Computação em 2024. Marta é bolsista de produtividade em pesquisa nível 1B do CNPq e bolsista Cientista do Estado do Rio de Janeiro. Ela coordena projetos de pesquisa financiados pelo CNPq, CAPES, Faperj e mantém projetos de colaboração com o INRIA, França, desde 2001, além de atuar como membro do corpo de especialistas do projeto WorkflowsRI nos EUA e membro fundador da Sociedade Brasileira de Computação.