Modelos de classificação: entenda como funciona o aprendizado de máquina

Modelos de classificação: entenda como funciona o aprendizado de máquina

Olá, meu nome é Rudiney. Sou professor do curso de Data Science na Digital House Brasil e eu estou aqui pra falar sobre modelos de classificação em Data Science.

O que são modelos de classificação?

Modelos de classificação são um ramo de aplicação do aprendizado de máquina, no campo da ciência de dados. Resumidamente, os modelos de classificação têm o propósito de classificar características de um sistema de dados, de modo a associar um conjunto de observações sob a mesma caracterização. Para entendermos melhor o ramo da classificação, vamos voltar alguns passos e relembrar o conceito de aprendizado de máquina.

Ramificações do campo de aprendizado de máquina


O aprendizado de máquina é o processo de criação de modelos que podem realizar uma certa tarefa sem a necessidade de que um humano a tenha programado para isso. De forma geral, como pode ser visto na figura acima, podemos reduzir o universo do aprendizado de máquina em três grandes vertentes:

Aprendizado por reforço

O aprendizado por reforço, em que um agente interage com um ambiente através da troca simultânea de sinais, com o agente enviando um informação sobre uma ação e o ambiente enviando informação sobre um estado, submetido à ação do agente. O agente pode receber recompensas por uma determinada ação, submetido à ação do ambiente. O aprendizado por reforço endereça essa relação de ação e recompensa, estudando como os agentes de um software devem tomar ações em um ambiente, de modo a maximizar o conceito de recompensa cumulativa. Ele é encontrado na inteligência artificial, robótica e jogos.

Aprendizado não supervisionado

O aprendizado não supervisionado envolve a posse de um dataset e a aplicação de técnicas estatísticas e de aprendizado de máquina para extrair uma estrutura dos dados e a relação entre os atributos. O aprendizado não supervisionado procura padrões nos dados e por não haverem rótulos (ou os valores a serem previstos pelo modelo), usados no treinamento dos modelos supervisionados, é preciso adotar outras técnicas de aprendizagem para realizar previsões. Ele pode ser encontrado em segmentação de clientes e sistemas de recomendação, mas também em nossos bebês que aprendem sem supervisão quando nos observam e imitam nossa ações.

Aprendizado supervisionado

O aprendizado supervisionado é aquele em que há à disposição uma lista de rótulos da variável resposta, observações com resultado conhecido, que podem treinar o modelo e permiti-lo fazer previsões. O aprendizado supervisionado se divide em duas categorias. A seguir vemos a ramificação em dois tipos, os modelos de classificação e os de regressão.


Ramificações do subcampo de aprendizado supervisionado


Como visto na figura acima, temos as regressões, usadas para estimativas e previsões numéricas, como a de preços em mercados imobiliários ou a quantidade de um item de vestuário a ser produzido. Temos também os modelos de classificação (supervisionados), o tema central desse texto, que veremos em detalhes a seguir.

Como funciona aprendizado de máquina?

Vamos então iniciar nossa discussão sobre alguns dos mais conhecidos modelos de aprendizado supervisionado de máquinas classificadoras. Os modelos de classificação são do tipo supervisionado e predizem resultados de tipo classe. Isso significa que um modelo de classificação vai prever qualquer tipo de categoria, ou classe, tal como tipo de objeto ou classificação.

Pode ser um tipo de fruta (como pêras ou maçãs), pode ser um diagnóstico médico (como para tumores malignos ou benignos), pode ser a avaliação de uma operação de crédito (como fraude ou não fraude).

Um modelo de classificação usa atributos de um indivíduo (ou grupo de indivíduos) ou entidade para prever a classe desse indivíduo ou entidade. Suponha que trabalhe em uma empresa de entrega de hortifrúti e queira desenvolver um modelo que reconheça um tipo de fruta, entre uma maçã, ou uma banana, ou uma laranja, ou um abacaxi. Baseando-se nos atributos de forma, dimensões, cor e peso, você tenta predizer a chance de uma fruta ser classificada com cada um dos rótulos descritos acima, diferenciando uma fruta da outra com base na combinação de seus atributos.

Diz-se que o modelo aprende que algumas combinações de atributos pertencem a classes ou categorias específicas da amostra. O modelo entende que a uma determinada combinação média de atributos será dado uma classificação de sua categoria, uma outra combinação média desses atributos será interpretada com uma classificação em uma categoria diferente e assim por diante. Os rótulos utilizados para a classificação podem ser binários, como positivo (+) e negativo (-), sim ou não, verdadeiro ou falso, presente ou não presente. Os rótulos também podem conter múltiplas classes, como iniciante, intermediário ou avançado. Ou como laranja, maçã e banana.

Quer saber mais sobre árvores de decisão?

Muitos são os modelos propostos para a tarefa de classificação que apresentam diferentes abordagens. Assim, essa será uma série discutindo alguns modelos de classificação. Falaremos das Árvores de Decisão, as Decision Trees, que são um sistema de suporte à decisão que utilizam modelos que copiam as ramificações de árvores para expressar o processo de tomada de decisão e suas consequências. Utilizando declarações de controle condicional, o modelo tenta prever resultados de eventos, custo de recursos e utilidade, entre outros.

Falaremos também do Naïve Bayes, um classificador probabilístico, que tira proveito do teorema proposto por Thomas Bayes (1701 - 1761), que descreve a probabilidade de um evento ocorrer com base no conhecimento prévio das condições que podem estar relacionadas a esse evento.

E por fim, discutiremos ainda sobre Máquinas de vetores de Suporte, que representam as observações do dataset como pontos no espaço, de modo que as categorias de observações sejam separadas por um hiato espacial (o mais amplo possível) não populado por pontos. Assim novas observações podem ser mapeadas naquele espaço e previsões de classificação dessas observações de um lado da divisão ou outro, podem ser realizadas.

Assim, nos vemos em breve :)

Quer estudar Data Science na prática?

O melhor jeito de aprender é fazendo! No curso para se tornar cientista de dados da DH, você tem aulas ao vivo com professores que estão no mercado. Que tal baixar o programa do curso e ver a infinidade de temas que você pode começar a estudar?

Não deixe de conferir também nossa biblioteca de conteúdo e o Blog DH, com diversos outros artigos e materiais interessantes sobre tecnologia.

Vem ler mais artigos sobre dados:

+ Conheça as tendências digitais para 2021

+ Como escolher sua carreira na área de dados

+ Como implementar uma cultura de dados

E aí, já segue a gente no Twitter? Vem pra rede, vamos conversar sobre habilidades digitais! ;)