Towards Democratizing AI: Scaling and Learning (Fair) Graph Representations in an Implementation Agnostic Fashion

>> <<

Recently there has been a surge of interest in designing graph embedding methods. Few, if any, can scale to a large-sized graph with millions of nodes due to both computational complexity and memory requirements. In this talk, I will present an approach to redress this limitation by introducing the MultI-Level Embedding (MILE) framework – a generic methodology allowing con-temporary graph embedding methods to scale to large graphs. MILE repeatedly coarsens the graph into smaller ones using a hybrid matching technique to maintain the backbone structure of the graph. It then applies existing embedding methods on the coarsest graph and refines the embeddings to the original graph through a graph convolution neural network that it learns. Time permitting, I will then describe one of several natural extensions to MILE – in a distributed setting (DistMILE) to further improve the scalability of graph embedding or mechanisms – to learn fair graph representations (FairMILE).
The proposed MILE framework and variants (DistMILE, FairMILE), are agnostic to the underlying graph embedding techniques and can be applied to many existing graph embedding methods without modifying them and is agnostic to their implementation language. Experimental results on five large-scale datasets demonstrate that MILE significantly boosts the speed (order of magnitude) of graph embedding while generating embeddings of better quality, for the task of node classification. MILE can comfortably scale to a graph with 9 million nodes and 40 million edges, on which existing methods run out of memory or take too long to compute on a modern workstation. Our experiments demonstrate that DistMILE learns representations of similar quality with respect to other baselines while reducing the time of learning embeddings even further (up to 40 x speedup over MILE). FairMILE similarly learns fair representations of the data while reducing the time of learning embeddings.
Joint work with Jionqian Liang (Google Brain), S. Gurukar (OSU) and Yuntian He (OSU)

Srinivasan Parthasarathy

Professor of Computer Science and Engineering, The Ohio State University
https://web.cse.ohio-state.edu/~parthasarathy.2/

Responsible AI

>> <<

In the first part we cover five current specific problems that motivate the needs of responsible AI: (1) discrimination (e.g., facial recognition, justice, sharing economy, language models); (2) phrenology (e.g., biometric based predictions); (3) unfair digital commerce (e.g., exposure and popularity bias); (4) stupid models (e.g., minimal adversarial AI) and (5) indiscriminate use of computing resources (e.g., large language models). These examples do have a personal bias but set the context for the second part where we address four challenges: (1) too many principles (e.g., principles vs. techniques), (2) cultural differences; (3) regulation and (4) our cognitive biases. We finish discussing what we can do to address these challenges in the near future to be able to develop responsible AI.

Ricardo Baeza-Yates

Ricardo Baeza-Yates is Director of Research at the Institute for Experiential AI of Northeastern University. Before, he was VP of Research at Yahoo Labs, based in Barcelona, Spain, and later in Sunnyvale, California, from 2006 to 2016. He is co-author of the best-seller Modern Information Retrieval textbook published by Addison-Wesley in 1999 and 2011 (2nd ed), that won the ASIST 2012 Book of the Year award. From 2002 to 2004 he was elected to the Board of Governors of the IEEE Computer Society and between 2012 and 2016 was elected for the ACM Council. In 2009 he was named ACM Fellow and in 2011 IEEE Fellow, among other awards and distinctions. He obtained a Ph.D. in CS from the University of Waterloo, Canada, in 1989, and his areas of expertise are web search and data mining, information retrieval, bias on AI, data science and algorithms in general.

LinkedIn    Twitter    Google Scholar   DBLP   

Mining, Learning and Semantics for Personalized Health

>> <<

In this talk I’ll present an overview of the challenges and opportunities for applying data mining and machine learning for tasks in personalized health, including the role of semantics. In particular, I’ll focus on the task of healthy recipe recommendation via the use of knowledge graphs, as well as generating summaries from personal health data, highlighting our work within the RPI-IBM Health Empowerment by Analytics, Learning, and Semantics (HEALS) project.

Mohammed J. Zaki is a Professor and Department Head of Computer Science at RPI. He received his Ph.D. degree in computer science from the University of Rochester in 1998. His research interests focus novel data mining and machine learning techniques, particularly for learning from graph structured and textual data, with applications in bioinformatics, personal health and financial analytics. He has around 300 publications (and 6 patents), including the Data Mining and Machine Learning textbook (2nd Edition, Cambridge University Press, 2020). He founded the BIOKDD Workshop, and recently served as PC chair for CIKM’22. He currently serves on the Board of Directors for ACM SIGKDD. He was a recipient of the NSF and DOE Career Awards. He is a Fellow of the IEEE, a Fellow of the ACM, and a Fellow of the AAAS.

http://www.cs.rpi.edu/~zaki/

Ciência de Dados para Performance de Negócios

>> <<

A Big Data, fundada em 2012, é pioneira na área de big data analytics no Brasil. Nessa palestra vamos trazer um pouco da nossa experiência na aplicação de soluções de IA e ML em grandes empresas e mostrar como a aplicação dessas tecnologias tem resultados reais. Vamos contar como vários produtos que você consome no bar, na farmácia e vários outros lugares, além do preço são determinados pelos nossos algoritmos.

Roberto Nalon @BigData

Sócio e Head of Data science na BigData

https://bigdata.com.br/

LLVM: um arcabouço para construção de linguagens de programação

>> <<

LLVM é um conjunto de bibliotecas e ferramentas que facilitam o desenvolvimento de linguagens de programação. Várias linguagens populares hoje são construídas e compiladas via LLVM: C, C++, Rust e Julia, por exemplo. LLVM define uma representação intermediária de código (uma linguagem de montagem). Ao traduzir uma linguagem de alto nível para este código intermediário, tem-se acesso a uma vasta gama de análises estáticas e otimizações que já estão disponíveis em LLVM. Nessa palestra veremos como usar LLVM como uma ferramenta para compilar e visualizar programas, escreveremos código na representação intermediária, e desenvolveremos uma análise de código que pode ser acoplada àquela infra-estrutura.

Fernando Magno Quintão Pereira

DCC/UFMG
ORCID     Lattes     Scholar     www

Campanhas de Desinformação no Brasil: Lições Aprendidas e Desafios Futuros

>> <<

O debate político e a disputa eleitoral no espaço online durante as eleições brasileiras de 2018 marcaram o início de uma grande guerra informacional no país. Essa guerra se tornou parte do nosso cotidiano e um dos problemas mais desafiadores da nossa sociedade. Visando mitigar o problema, nós criamos o projeto “Eleições Sem Fake” (www.eleicoes-sem-fake.dcc.ufmg.br) e desenvolvemos soluções tecnológicas capazes de monitorar e expor as atuações de diferentes campanhas políticas no espaço online. Exemplos de sistemas incluem: um monitor de propagandas impulsionadas no Facebook e monitores de grupos públicos, voltados para discussão política, no WhatsApp e no Telegram. Nossos sistemas se mostraram fundamentais para a checagem de fatos, para o jornalismo investigativo e, atualmente, nosso projeto faz parte da frente nacional de enfrentamento à desinformação do TSE. Essa palestra sumariza uma série de lições aprendidas a partir da implantação desses sistemas e aponta direções futuras para o combate à desinformação.

Fabrício Benevenuto de Souza

DCC/UFMG
ORCID     Lattes     Scholar     www

Desinformação na Web: Lutando contra nossos próprios demônios

Apesar de vários esforços para detecção e combate à desinformação online, as campanhas de fake news, em particular em plataformas de mídia social, permanecem um problema com grande impacto nas sociedades. Nós argumentamos que para desenvolver soluções efetivas para o combate à desinformação é essencial entender (analisar e modelar) como a informação é propagada, frequentemente cruzando os limites de diferentes plataformas, e atingindo uma grande audiência. Nesta palestra, eu irei discutir alguns dos desafios principais para o combate à desinformação online a apresentar resultados recentes do nosso grupo de pesquisa sobre a análise de disseminação de fake news. Nossos resultados abordam aspectos relacionados ao conteúdo, dinâmica de propagação e à rede de disseminação de informação, bem como características dos usuários, enquanto seres humanos, que mais contribuem para o espalhamento de desinformação na Web.

Jussara Marques de Almeida

DCC/UFMG
ORCID     Lattes     Scholar     www

Computação em nuvem e seu impacto na arquitetura de aplicações e serviços

>> <<

Nesta palestra vamos apresentar os fatores que impulsionaram a adoção de computação em nuvem, como infraestrutura de grande escala, compartilhamento de recursos, plataformas de desenvolvimento e novas arquiteturas de aplicações. Relacionaremos estes fatores com as tecnologias subjacentes e como suportam a computação em nuvem. Discutiremos também implicações da popularização da computação em nuvem para empresas, usuários e aplicações.

Ítalo Fernando Scotá Cunha

DCC/UFMG
ORCID     Lattes     Scholar     www

O que eu preciso para ser um excelente Engenheiro de Software?

>> <<

Atualmente, toda empresa está se transformando em uma empresa de software. Então, não é surpresa que Engenheiros de Software estejam no topo das profissões mais demandadas do mercado. Nesta palestra, vamos discorrer sobre as diferentes habilidades que são exigidas de um Engenheiro de Software, bem como comentar sobre as principais técnicas usadas no dia a dia da profissão.

Marco Túlio de Oliveira Valente

DCC/UFMG
ORCID Lattes Scholar www