Por Cate Cadell
PINGDINGSHAN, China (Reuters) - Em um vilarejo da província de Henan, no centro da China, entre cachorros latindo e galinhas perambulando, os moradores se reúnem em uma estrada de terra para trocar imagens de seus rostos por caldeirões, potes e xícaras de chá.
No início da fila, uma mulher está diante de uma câmera presa a um tripé. Ela segura em frente de seu rosto uma fotografia de sua cabeça com os olhos e o nariz cortados e a gira lentamente de um lado para o outro.
Os moradores do vilarejo que esperam sua vez pegam uma senha. Alguns deles dizem que é a terceira ou quarta vez que eles fazem esse tipo de trabalho.
O projeto, realizado em um pacato pátio de uma casa na aldeia, decorado com pôsteres do ex-líder da China Mao Tsé-Tung, está coletando material que pode ser usado para treinar softwares de inteligência artificial para distinguir características faciais reais de imagens fixas.
"Os maiores projetos têm dezenas de milhares de pessoas, todas vivendo nesta área", disse Liu Yangfeng, presidente-executivo da Qianji Data, que coleta e classifica os dados de várias das maiores empresas de tecnologia da China e está localizado na cidade vizinha de Pingdingshan.
"Estamos criando mais conjuntos de dados para atender mais empresas de algoritmos de inteligência artificial, para que possam servir ao desenvolvimento da IA na China", disse Liu, recusando-se a divulgar seus clientes.
O boom na demanda por dados para treinar algoritmos de IA está alimentando uma nova indústria global que reúne informações como fotos e vídeos, que são rotulados para dizer às máquinas o que elas estão vendo.
As empresas envolvidas na rotulagem de dados incluem plataformas de colaboração coletiva como o Mechanical Turk da Amazon (NASDAQ:AMZN) que oferece aos usuários pequenas quantias de dinheiro em troca de tarefas simples, terceirizando empresas como a indiana Wipro bem como rotuladores profissionais como a Qianji.
A Cognilytica, uma empresa norte-americana de pesquisa especializada em IA, estima que o mercado global de rotulagem de dados relacionados à aprendizagem de máquina cresceu 66% para 500 milhões de dólares em 2018 e deverá aumentar mais que o dobro até 2023. Alguns membros da indústria dizem que grande parte do trabalho realizado não é divulgado, dificultando estimativas precisas.