Rastrear dados para credibilidade de análises de resultados em ciência de dados

>> <<

Scripts para ciência de dados integram componentes de software em atividades que transformam dados para gerar resultados científicos. A rastreabilidade de artefatos envolvidos nos scripts proporciona acesso a essas atividades de ponta a ponta, promovendo a confiança e a reprodução dos resultados. Torna-se essencial adotar técnicas para rastrear e correlacionar os artefatos relevantes produzidos pelas atividades dos scripts. Os dados de proveniência, conforme definidos pelo padrão W3C PROV, fornecem uma abstração que representa e correlaciona os artefatos a serem rastreados. Além de representar metadados sobre esses artefatos, a proveniência provê um caminho de derivação de dados, permitindo que a geração do resultado seja seguida automaticamente.

A coleta de dados de proveniência vem sendo incorporada em ambientes de execução de scripts para diversas aplicações como em aprendizado de máquina, com o objetivo de fornecer segurança, confiança, reprodutibilidade e explicabilidade dos resultados dos scripts. No entanto, frequentemente, o uso da proveniência é limitado aos metadados dos artefatos, sem acesso ao seu caminho de derivação, o que restringe a confiança e a reprodutibilidade dos resultados.

Apesar de existir há muitos anos, o uso e a consulta de dados de proveniência ainda são desafiadores. Esta palestra destaca diferentes usos da proveniência para confiança, como na ciência de dados, detecção de ameaças à segurança e autenticidade de artefatos. São apresentados os desafios atuais para coletar a proveniência e rastrear o caminho de derivação dos artefatos, com exemplos de uso da proveniência em scripts de aprendizado de máquina.

Foto de Marta Mattoso

Marta Mattoso

Professora
Universidade Federal do Rio de Janeiro

Lattes Scholar www

Marta Mattoso é professora titular do Programa de Engenharia de Sistemas e Computação da COPPE na Universidade Federal do Rio de Janeiro. Seus interesses em Ciência de Dados incluem aspectos de gerência de dados em larga escala, com ênfase em dados de proveniência para apoiar análises de humanos na execução paralela de múltiplas tarefas em ambientes de alto desempenho. Ela orientou mais de 90 alunos de pós-graduação e na graduação foi paraninfa e homenageada em turmas de formandos da Engenharia de Computação da UFRJ. Foi homenageada como Pesquisadora no Simpósio Brasileiro de Bancos de Dados em 2005 e foi agraciada com o Mérito Científico da Sociedade Brasileira de Computação em 2024. Marta é bolsista de produtividade em pesquisa nível 1B do CNPq e bolsista Cientista do Estado do Rio de Janeiro. Ela coordena projetos de pesquisa financiados pelo CNPq, CAPES, Faperj e mantém projetos de colaboração com o INRIA, França, desde 2001, além de atuar como membro do corpo de especialistas do projeto WorkflowsRI nos EUA e membro fundador da Sociedade Brasileira de Computação.

Uso de Tecnologias Imersivas para Qualificação e Inclusão de Professores, Alunos e Trabalhadores da Indústria

>> <<

Nesta palestra, exploraremos como as tecnologias imersivas, como realidade virtual (VR) e realidade aumentada (AR), podem revolucionar a qualificação de professores, alunos e trabalhadores da indústria. Discutiremos as principais aplicações dessas tecnologias no contexto educacional e industrial, destacando como elas podem melhorar o aprendizado e a preparação para o mercado de trabalho.
Vamos abordar como as tecnologias imersivas proporcionam experiências de aprendizado mais envolventes e práticas, que simulam cenários reais e permitem a experimentação segura. Para professores, essas tecnologias oferecem ferramentas para criar ambientes de aprendizado dinâmicos e interativos, facilitando a abordagem de conteúdos complexos e promovendo metodologias ativas. Para alunos, elas proporcionam experiências educacionais imersivas que melhoram a compreensão e retenção do conhecimento. E para trabalhadores da indústria, as tecnologias imersivas oferecem treinamentos eficazes e seguros, simulando operações e processos de trabalho em um ambiente virtual.
A palestra incluirá exemplos de projetos bem-sucedidos que utilizam tecnologias imersivas para treinamento e qualificação, discutindo os desafios e oportunidades na implementação dessas soluções. Além disso, abordaremos as tendências futuras e o impacto potencial dessas tecnologias na transformação dos métodos de ensino e treinamento.

Foto do Saul Delabrida

Saul Delabrida

Professor
Universidade Federal de Ouro Preto

Lattes Scholar www

Como os SysAdmins de uma empresa global usam Debian

>> <<

Vou falar sobre meu dia a dia trabalhando como SysAdmin na Collabora, uma consultoria global, especializada em entregar os benefícios do software de código aberto para o mundo comercial. Mostrarei os softwares e ferramentas livres usadas pela equipe de SysAdmin. E vamos conversar sobre como você também pode trabalhar remotamente em uma empresa internacional.

Paulo Santana

Desenvolvedor Debian, e administrador de redes e sistemas GNU/Linux na Collabora

Paulo Santana é graduado em Ciência da Computação pela UFPR, Desenvolvedor Debian colaborando para o Projeto com empacotamento e nos times de tradução, publicidade, organização de eventos e comunidades locais. Atualmente trabalha como Engenheiro de Administração de Sistemas na Collabora, empresa internacional especializada em Código Aberto.

Towards ultra-reliable mobile networks

>> <<

Um dos principais diferenciais de redes 5G e 6G é a crescente necessidade de suportar serviços de ultra confiabilidade e baixa latência (ou ultra-reliable low-latency communication services) como URLLC (5G) e HRLLC (6G) para possibilitar aplicações como automação industrial, veículos controlados remotamente, e saúde eletrônica. Um grande desafio para suportar esses serviços em uma rede de telefonia móvel é garantir baixas latências (geralmente < 1 milissegundo) com altos níveis de confiabilidade (geralmente na ordem de > 99.999%) em redes sem fio sujeitas à fenômenos estocásticos como interferência, mobilidade e demanda. Nesta palestra, abordaremos o que é preciso para suportar serviços de ultra confiabilidade e baixa latência em larga escala em redes de telefonia móvel (por exemplo, quais os requisitos em termos de espectro e número de estações base que um operador precisa para construir uma rede capaz de suportar serviços URLLC/HRLLC). Além disso, abordaremos tecnologias que podem facilitar esse objetivo e desafios práticos na hora de modelar soluções para serviços de ultra confiabilidade.

Foto do André Gomes

André Gomes

Rowan University

André Gomes é professor adjunto em ciência da computação na Rowan University, EUA, e possui doutorado em engenharia da computação pela Virginia Tech, EUA, mestrado em ciência da computação pela UFMG, e bacharelado em engenharia de telecomunicações pela UFSJ. Anteriormente, ele trabalhou como cientista pós-doutorado no Commonwealth Cyber Iniciative, EUA, cientista pesquisador no AT&T Research Labs, EUA, e como engenheiro de telecomunicações na Bwtech, Belo Horizonte. Suas recentes áreas de interesse incluem: ultra-reliable communication, network softwarization, e reconfigurable intelligent surfaces.

Medical image report generation: methods, evaluation and challenges

>> <<

Denis Parra

Associate Professor at the Department of Computer Science, in the School of Engineering at PUC Chile. I am principal researcher at the National Center of Artificial Intelligence (CENIA) as well as principal research at the Millenium Institute for Intelligent Healthcare Engineering (iHealth). I am also adjunct researcher at the Millennium Institute for Research on Fundamentals of Data. I hold a professional title of Civil Engineer in Informatics in 2004 from UACh, Valdivia, Chile; and a Ph.D. in Information Science from University of Pittsburgh, USA, advised by Professor Peter Brusilovsky. I earned a Fulbright scholarship to pursue my PhD studies between 2008-2013.

My research interests are Recommender Systems, Intelligent User Interfaces, Applications of Machine Learning (Healthcare, Creative AI) and Information Visualization and I am currently leading the Human-centered AI and Visualization (HAIVis) research group as well as co-leading the CreativAI Lab with professor Rodrigo Cádiz. I am also Faculty member of the PUC IA Lab.

https://dparra.sitios.ing.uc.cl/

Understanding and Mitigating Online Harms Using AI

>> <<

Indisputably, the Web has revolutionized how people receive, consume, and interact with information. At the same time, unfortunately, the Web offers a fertile ground for online harms like the spread of hateful content and false information; hence there is a pressing need to develop techniques and tools to understand, detect, and mitigate these issues on the Web. In this talk, I will present our work on understanding and detecting hateful content using recent Artificial Intelligence (AI) advancements. The talk will focus on how we can use AI models to detect hateful content across multiple modalities (text and images) and understand the spread and evolution of hateful content online. I will conclude the talk with ongoing work on how prone Text-to-Image models are (e.g., Stable Diffusion in generating unsafe content).

Savvas Zannettou

Savvas Zannettou is an Assistant Professor at Delft University of Technology (TU Delft) and an associated researcher with the Max Planck Institute for Informatics. Before joining TU Delft, he was a Postdoctoral Researcher at Max Planck Institute for Informatics. He obtained his PhD from Cyprus University of Technology in 2020. His research focuses on applying machine learning and data-driven quantitative analysis to understand emerging phenomena on the Web, such as the spread of false information and hateful rhetoric. Also, he is interested in understanding algorithmic recommendations on the Web, their effect on end-users, and to what extend algorithms recommend extreme content. Finally, he is interested in analyzing content moderation systems to understand the effectiveness of moderation interventions on the Web.

https://zsavvas.github.io/

Mapping the NFT Revolution

>> <<

Non-Fungible Tokens (NFTs) are units of data stored on a blockchain that certifies a digital asset to be unique and therefore not interchangeable, while offering a unique digital certificate of ownership. Public attention towards NFTs has exploded in 2021, when their market has experienced record sales. For long, little was known about the overall structure and evolution of its market. To shed some light on its dynamics, we collected data concerning 6.1 million trades of 4.7 million NFTs between June 2017 and April 2021 to study the statistical properties of the market and to gauge the predictability of NFT prices. We also studied the properties of the digital items exchanged on the market to find that the emerging norms of NFT valuation thwart the non-fungibility properties of NFTs. In particular, rarer NFTs: (i) sell for higher prices, (ii) are traded less frequently, (iii) guarantee higher returns on investment (ROIs), and (iv) are less risky, i.e., less prone to yield negative returns.

Luca Maria Aiello

Associate Professor at the IT University of Copenhagen, Denmark

http://www.lajello.com/
https://twitter.com/lajello

Towards Democratizing AI: Scaling and Learning (Fair) Graph Representations in an Implementation Agnostic Fashion

>> <<

Recently there has been a surge of interest in designing graph embedding methods. Few, if any, can scale to a large-sized graph with millions of nodes due to both computational complexity and memory requirements. In this talk, I will present an approach to redress this limitation by introducing the MultI-Level Embedding (MILE) framework – a generic methodology allowing con-temporary graph embedding methods to scale to large graphs. MILE repeatedly coarsens the graph into smaller ones using a hybrid matching technique to maintain the backbone structure of the graph. It then applies existing embedding methods on the coarsest graph and refines the embeddings to the original graph through a graph convolution neural network that it learns. Time permitting, I will then describe one of several natural extensions to MILE – in a distributed setting (DistMILE) to further improve the scalability of graph embedding or mechanisms – to learn fair graph representations (FairMILE).
The proposed MILE framework and variants (DistMILE, FairMILE), are agnostic to the underlying graph embedding techniques and can be applied to many existing graph embedding methods without modifying them and is agnostic to their implementation language. Experimental results on five large-scale datasets demonstrate that MILE significantly boosts the speed (order of magnitude) of graph embedding while generating embeddings of better quality, for the task of node classification. MILE can comfortably scale to a graph with 9 million nodes and 40 million edges, on which existing methods run out of memory or take too long to compute on a modern workstation. Our experiments demonstrate that DistMILE learns representations of similar quality with respect to other baselines while reducing the time of learning embeddings even further (up to 40 x speedup over MILE). FairMILE similarly learns fair representations of the data while reducing the time of learning embeddings.
Joint work with Jionqian Liang (Google Brain), S. Gurukar (OSU) and Yuntian He (OSU)

Srinivasan Parthasarathy

Professor of Computer Science and Engineering, The Ohio State University
https://web.cse.ohio-state.edu/~parthasarathy.2/

Responsible AI

>> <<

In the first part we cover five current specific problems that motivate the needs of responsible AI: (1) discrimination (e.g., facial recognition, justice, sharing economy, language models); (2) phrenology (e.g., biometric based predictions); (3) unfair digital commerce (e.g., exposure and popularity bias); (4) stupid models (e.g., minimal adversarial AI) and (5) indiscriminate use of computing resources (e.g., large language models). These examples do have a personal bias but set the context for the second part where we address four challenges: (1) too many principles (e.g., principles vs. techniques), (2) cultural differences; (3) regulation and (4) our cognitive biases. We finish discussing what we can do to address these challenges in the near future to be able to develop responsible AI.

Ricardo Baeza-Yates

Ricardo Baeza-Yates is Director of Research at the Institute for Experiential AI of Northeastern University. Before, he was VP of Research at Yahoo Labs, based in Barcelona, Spain, and later in Sunnyvale, California, from 2006 to 2016. He is co-author of the best-seller Modern Information Retrieval textbook published by Addison-Wesley in 1999 and 2011 (2nd ed), that won the ASIST 2012 Book of the Year award. From 2002 to 2004 he was elected to the Board of Governors of the IEEE Computer Society and between 2012 and 2016 was elected for the ACM Council. In 2009 he was named ACM Fellow and in 2011 IEEE Fellow, among other awards and distinctions. He obtained a Ph.D. in CS from the University of Waterloo, Canada, in 1989, and his areas of expertise are web search and data mining, information retrieval, bias on AI, data science and algorithms in general.

LinkedIn    Twitter    Google Scholar   DBLP