YouTube deteta 94% dos conteúdos inapropriados com Inteligência Artificial

por Nuno Patrício - RTP

Os cibernautas utilizam cada vez mais a plataforma YouTube para apresentarem conteúdos e comentários. Vídeos que vão desde o humor à venda de produtos. É uma prática ainda mais corrente em contexto de pandemia. Mas nem todos os conteúdos respeitam as regras da plataforma de "streaming", podendo mesmo roçar o injurioso.

Razão pela qual o YouTube, ao longo dos anos, tem vindo a disponibilizar novas métricas, tais como o número de recursos de ações por violações e os vídeos que foram restabelecidos após análise.

Desde o lançamento do Relatório de Aplicação das regras da comunidade do YouTube, em 2018, esta plataforma removeu mais de 83 milhões de vídeos e sete mil milhões de comentários por violarem as regras da comunidade.

Uma avaliação que resulta de grandes investimentos em tecnologias de machine learning que o YouTube fez em 2017.

O que é o machine learning

O machine learning é uma forma de Inteligência Artificial que permite que as aplicações de software sejam bastante precisas na previsão de resultados, mesmo sem serem expressamente programadas para tal. O sistema tem ganho cada vez mais destaque.

Este sistema de aprendizagem consiste na execução de algoritmos que criam de modo automático modelos de representação de conhecimento, com base num conjunto de dados.

A ideia baseia-se em conferir ao sistema um conjunto de regras, dando-lhe acesso aos dados históricos, uma ou mais medidas de desempenho e deixando o algoritmo "aprender". Ou seja, ajustar de modo interativo o modelo de representação de conhecimento, de modo a que este melhore o desempenho.

Imagem com Direitos Reservados

Após esta aprendizagem, o sistema fica capacitado com um conjunto de regras e um potencial para efetuar previsões e análise que estejam relacionadas com padrões históricos.

Uma das plataformas mais "atacada" e sujeita a constantes violações das regras, com conteúdos abusivos, é a YouTube Kids, onde surgem diariamente - mas cada vez mais controlados - vídeos e comentários fora dos padrões daquele canal exclusivamente para crianças.

Esta estratégia pode mesmo ser usada com uso permanente da Internet.
 
Trata-se de um sistema oleado, que várias empresas fornecedoras de conteúdos informáticos utilizam já com total liberdade, como por exemplo as recomendações da Amazon, as pesquisas e as traduções automáticas do serviço Google, baseadas em algoritmos de machine learning.

Voltando ao YouTube. De acordo com os promotores da plataforma de streaming, o sistema de aprendizagem automático é capaz de detetar 94 por cento deste tipo de conteúdo, recorrendo a sinalização automática, sendo que 75 por cento dos vídeos são removidos antes de receberem dez visualizações.

Fonte: YouTube/DR

O YouTube disponibiliza também no seu relatório uma nova tabela - Taxa de visualização de conteúdo inadequado (VVR) - que proporcionará ainda maior transparência sobre a eficácia dos sistemas empregues pela Google e respetivos parceiros.

A taxa VVR mais recente está entre 0,16 e 0,18 por cento, o que significa que, a cada dez mil visualizações no YouTube, 16 a 18 são de vídeos que violam as políticas.

Este resultado, de acordo com a plataforma, é 70 por cento menor em relação ao mesmo trimestre de 2017. E grande parte disso aconteceu graças aos seus investimentos em machine learning.

A empresa detentora da Google e do YouTube, Alphabet Inc., refere que as equipas têm acompanhado estes números desde 2017, utilizando esta métrica (VVA) para medir o trabalho de responsabilidade social. A empresa de Larry Page, CEO da Alphabet Inc., informou recentemente que o YouTube vai atualizar a VVR a cada três meses no relatório de aplicação das regras da comunidade. 


Aplicação do machine learning
Aqui ficam alguns exemplos de situações em que é aplicado o machine learning:

- Recomendações online de produtos dos sites de vendas;
- Anúncios em tempo real nos websites;
- Resultados personalizados apresentados no feed do Facebook;
- Recomendações de séries e filmes da Netflix;
- Otimização de pesquisas online e dos resultados;
- Filtragem de spam no e-mail;
- Deteção de fraudes e invasões;
- Reconhecimento de voz e semântica (processamento de idioma original);
- Reconhecimento de objetos;
- Reconhecimento de texto.
Tópicos
pub