MENU

| BR

Campus

Cursos

Programas Executivos

Programas Executivos

Paises

Como fazer uma análise de resultados: uma breve introdução

Como fazer uma análise de resultados: uma breve introdução
#Dados
5 de março - min de leitura

Pode ser que você não saiba, mas estamos fazendo análises de resultados o tempo inteiro. Sim, elas estão presentes no nosso dia a dia, mesmo que muitas vezes não seja claro. Mas você sabe realmente como realizar uma análise? Entenda aqui como fazer e coloque na prática.


“Como fazer uma análise de resultados?”, esta é a pergunta que muitos aspirantes a analistas de dados se fazem ao se deparar com a primeira análise, sabem porquê? É que até o último gráfico da apresentação há um longo caminho no processo de como fazer uma análise de resultados, e somente a prática torna mais rápido e apurado. 

Como iniciar uma análise de resultados?

A primeira coisa a se pensar é que estamos fazendo investigações o tempo inteiro, seja sobre os resultados de uma partida de futebol, um convite a um encontro ou até uma simples pesquisa de preço de um produto. A análise de resultados de qualquer assunto está presente em nosso dia a dia, mesmo sem uma planilha aberta. Sem mais delongas, existem algumas estratégias para sair da estaca zero e conseguir reunir tudo numa apresentação.

Análise de resultados: quais são as suas hipóteses?

No livro “Estatística sem matemática, a relação entre as questões e a análise”, os autores distribuem 17 perguntas antes de começar uma análise. Vou trazê-las aqui como se eu tivesse tido a ideia de apresentar “o impacto do coronavírus nas internações nos leitos de hospitais”, por exemplo. Não trarei todas, mas algumas já ajudam a ideia de análise de resultados no dia a dia:

- Você já definiu o objeto do seu estudo (variável independente, que contribui mais com o cenário como o aumento de infectados)?

- Onde estão os dados? Em que locais eles estarão armazenados?  São de fácil acesso?

- Você trabalhará com uma amostra de ou com a população total?

Depois de responder as perguntas, existem mais outras a seguir, porém relacionadas aos dados coletados, precisamos de perguntas respondíveis. Como, por exemplo:

-  Existe um padrão nas colunas? Por exemplo, mais vendas ou menos vendas, de acordo com os números?

- Em comparação com o período anterior, que podem ser meses, anos, dias, existe uma variação para mais ou menos?

- Há linhas vazias na base que podem influenciar em resultados?

- Os números estão em formatos corretos?

- Vou precisar fazer algum ajuste manual ou extrair novamente?

Abaixo temos uma base de dados coletada diretamente do site do governo do estado de São Paulo – a produtividade policial em 2019. Trata-se de ocorrências relacionadas a porte de entorpecentes, flagrantes, dentre outros crimes.


O que podemos ler sem nenhum gráfico?

  • Ao selecionar a primeira linha, temos a soma dos dados, a média, o valor mínimo e o máximo.

  • As maiores ocorrências estão relacionadas a flagrantes e inquéritos policiais instaurados (com 4 casas decimais e mais de 7 mil só em janeiro).

  • Infratores apreendidos por mandado e ocorrências de apreensão de entorpecentes possuem, em geral, apenas duas casas decimais em sua maioria. Vemos desta forma que há menos ocorrências feitas pela polícia.

Bônus: dica final para iniciantes na análise de dados

Por fim, o contexto é muito importante. A última frase que escrevi acima pode ser tendenciosa, caso eu dissesse que mais registros seriam indícios de mais crimes. Só que nem sempre isto acontece. 

Sabemos que no Brasil há desconfiança em alguns setores da sociedade na polícia e a distribuição de delegacias nem sempre é justa considerando as periferias e região metropolitana. 

Se você trabalhar com vendas certamente existem épocas em que há mais ou menos venda. Se trabalhar com análise de dados para a saúde, veria um impacto de internações por problemas respiratórios nos últimos meses. Entender a sociedade é fundamental para uma boa análise de resultados e trazer este conhecimento faz uma grande diferença no dia a dia.

Aprenda análise de dados na Digital House

Nesse texto, nossa professora mostra o quão presente a análise de resultados está presente no nosso dia a dia, e como esta análise é importante na análise de dados.

Apesar de fazermos esta análise muitas vezes intuitivamente, como analisando um jogo de futebol, por exemplo, se aprofundar no estudo de análise de dados é essencial para compreender o que os dados podem significar.

Na Digital House você aprende mais sobre o assunto e se aprofunda nas possibilidades que a análise de resultados traz. Conheça nosso curso de Data Analytics, e aprenda com os melhores profissionais do mercado como se tornar um profissional de dados.

Leia mais no blog DH:

Dados abertos: como usar dados públicos para gerar estratégias de negócios

Power BI para leigos: aprenda os primeiros passos

Resumo LGPD: tudo o que uma empresa precisa saber sobre a nova lei

E aí, já segue a gente no Twitter? Vem pra rede, vamos conversar sobre habilidades digitais! ;) 

Outras notícias

A nova corrida espacial img
#Tecnologia

A nova corrida espacial

Quem viu a disputa recente de bilionários, sobre quem fazia o primeiro voo espacial turístico, talvez não saiba que estamos no meio de uma disputa espacial. Essa nova corrida pode nos levar até Marte em alguns anos e definitivamente redefinir a visão de liderança espacial entre as nações da Terra.Estações EspaciaisA humanidade foi ao espaço pela primeira vez em 1961, chegou na lua em 1969, e de 1998 a 2011 montou uma estação espacial que já foi visitada por 249 astronautas de 19 países.A atual estação espacial internacional (ISS) tem apenas mais 3 anos de vida útil. É possível que ela dure mais algum tempo com alguma manutenção, mas é um tipo de risco que geralmente não se corre com esse tipo de empreendimento. Se já é perigoso morar numa casa com problemas em terra firme, imagine no espaço?A ISS não é a primeira estação espacial e nem será a última, antes tivemos a Salyut, Almaz, Skylab e MIR e já faz algum tempo que a China está trabalhando na sua própria estação espacial.A estação espacial chinesa se chama Tiangong, que em tradução livre significa Palácio Celeste. Os últimos astronautas (ou taikonautas, termo usado pelos chineses) que chegaram lá em 17/junho devem ficar por 10 anos no espaço. A partir de 2024, com a desativação da ISS, a China colocou à disposição da ONU sua estação para pesquisas. Até o momento 9 projetos de 23 instituições em 9 países já foram selecionados.MarteA exploração de Marte começou com a Mariner 4 em 1964, a primeira sonda a passar pela órbita marciana, e a partir de 1997 começaram a enviar veículos (rovers) para explorar o planeta em solo.A Nasa já enviou 5 veículos: Sojourner, Spirit e Opportunity, Curiosity, e Perseverance. Este último chegou lá em fevereiro de 2021. Porém, o veículo mais recente em Marte é dos chineses, se chama Zhurong e aterrissou em maio de 2021.Além dos Estados Unidos e China, temos Rússia (nos tempos da URSS), Agência Espacial Européia, Índia e Emirados Árabes Unidos que já enviaram sondas espaciais com sucesso para a órbita de Marte.E voltando a falar em bilionários, um dos grandes obcecados com a exploração do planeta vermelho é Elon Musk, a ponto de ter uma página oficial e uma página na Wikipedia dedicadas especificamente a esse tema.Uma das ambições do multiempreendedor Musk (SpaceX; Tesla Motors; OpenAI, Neuralink e SolarCity) é colonizar Marte. Isso envolve aquecimento, água, oxigênio, cultivo e mineração entre muitas outras coisas.Se você tem curiosidade sobre o tema, recomendo a minissérie Marte da Netflix. Ela é parte documentário (entrevistando cientistas, políticos e ativistas) e parte ficção-científica (mostrando uma jornada de colonizadores no planeta vizinho).Turismo EspacialO capítulo mais recente (e polêmico) dessa história envolve as viagens espaciais de Richard Branson e Jeff Bezos. Ambos disputam quem ocupa o lugar na história da primeira companhia a levar regularmente turistas ao espaço.Por um lado é um empreendimento fútil, ao contrário da exploração espacial que pode trazer descobertas científicas, o turismo espacial é puro entretenimento para ricos. Por outro lado, populariza a conversa sobre o espaço e chama mais atenção para a ciência, e (espero que) definitivamente, acabe com o terraplanismo.Richard Branson, fundador do Grupo Virgin, largou na frente. Sua nave chegou a 86 km de altitude, acima dos 80 km reconhecidos pelos Estados Unidos como limite do espaço. Ele pretende realizar 400 voos por ano e já vendeu 600 ingressos ao preço de US$250 mil.Jeff Bezos, fundador da Amazon, chegou depois, mas alfinetando seu oponente dizendo que ele não chegou no espaço. Acontece que o limite internacional, conhecido como Linha de Kármán, é de 100 km, altitude que a nave de Bezos alcançou. Ele ainda não deixou claro quantos voos fará por ano nem quanto custará o ingresso.Enfim, o importante é você saber que a atual conquista do espaço não se resume a uma disputa de egos entre quem tem muito dinheiro. Envolve pesquisa científica, envolve geopolítica e com certeza mexe com o sonho de muita gente que olha para as estrelas e fica pensando no que existe lá fora.Leia mais no blog DH:+ Google Analytics Dashboard: crie e personalize com o nosso passo a passo+ O que é brand equity e como as empresas geram valor de marca em seus produtos e serviços+ Marketing digital para iniciantes: 10 dicas de como começar na carreiraE aí, já segue a gente no Twitter? Vem pra rede, vamos conversar sobre habilidades digitais! ;)

Máquina de vetores de suporte: o que é? img
#Dados

Máquina de vetores de suporte: o que é?

O tema de hoje sucede outro importante modelo de classificação em aprendizado supervisionado, o Naïve Bayes. Classificador probabilístico baseados na aplicação do teorema de Bayes, o Naïve Bayes supõe a independência entre os atributos. Por ser simples e rápido o Naïve Bayes está entre os modelos mais aplicados para a classificação. Modelos de classificação têm aplicações diversas na sociedade moderna, da análise de sentimentos à classificação de documentos. A seguir apresentamos mais um interessante modelo, o Support Vector Machine.Support Vector Machine. As Máquinas de Vetores de Suporte ou Support Vector Machines, como o algoritmo é conhecido, são ferramentas de classificação e regressão. Uma SVM constrói hiperplanos em um espaço n-dimensional para classificar ou regredir dados. Os vetores de suporte de classificação constituem o SVC e os vetores de suporte de regressão constituem o SVR. Como ambos dependem apenas de um subconjunto dos dados de treinamento, pois a função de custo que constrói modelo não considera os pontos de treinamento que estão distantes da margem de classificação, o regressor se torna uma extensão do modelo de classificação. Nesse artigo concentraremos nossa atenção na propriedade de classificação que as máquinas de suporte nos oferecem.Conhecido como Support Vector Classification (SVC), o classificador SVC é uma ferramenta que usufrui das diferenças de posição entre determinadas observações e de sua disposição no espaço de atributos, determinado por um dataset, para classificar os pontos observados em relação as suas classes. A ideia é encontrar um objeto geométrico separador de classes, que pode ser uma linha em um espaço bidimensional, um plano em um espaço tridimensional ou um hiperplano, em um espaço n-dimensional de atributos.O método dos vetores de suporte é aplicável a áreas tão diversas quanto a detecção facial e classificação de imagens, a categorização de textos e hipertextos e reconhecimento de letras manuscritas, até a detecção de anomalias.Considere a seguinte base dados apresentada na figura a seguir, com um número M de observações, dois atributos, A e B , e um rótulo que se divide entre as classes Cruz Azul e Círculo Vermelho.   Quando visualizamos os dados de nosso dataset no espaço definido pelos atributos A e B, vemos que sua disposição ocorre de maneira a termos dois agrupamentos, um de Círculos Vermelhos e um de Cruzes Azuis. A figura a seguir apresenta essa disposição espacial das observações. À esquerda vemos a dispersão dos pontos e, à direita, vemos como atua o método SVC de classificação.   Note à direita, que os pontos mais próximos da fronteira entre os dois agrupamentos são utilizados como suporte para a criação de uma linha separadora de classificação. Esses pontos formam nossos vetores de suporte, tanto do lado dos Círculos Vermelhos, quanto do lado das Cruzes azuis e não é necessário que o mesmo número de pontos seja adotado em cada vetor de suporte. São esses pontos que fornecem suporte para a linha separadora, influenciando sua posição. A distância entre os pontos de ambas as classes caracteriza a margem que otimiza o processo de classificação. Como o SVC usa distâncias espaciais para realizar sua classificação, pode ser importante considerar o uso de algum método de reescalonamento dos dados.Pode ser intuitivo imaginar que um modelo que maximiza a margem entre o hiperplano de separação e os pontos de treinamento mais próximos das classes, resulta em um separador mais eficiente, pois em geral quanto maior a margem menor o erro de generalização do classificador. Mas é necessário lembrar da troca entre enviesamento e variância, uma margem maior pode resultar em um aumento do enviesamento do modelo, reduzindo sua variância. Por outro lado, uma margem mais reduzida pode implicar em uma redução do enviesamento, mas um aumento da variância do modelo. Há dois métodos adotados para a escolha do tamanho da margem. O primeira, chamado de Margem Rígida (Hard Margin), é mais indicado para bases com dados linearmente separáveis, entretanto elas podem ser mais sensíveis aos outliers. O segundo método, conhecido como Margem Suave (Soft Margin), é mais indicado para datasets com dados linearmente inseparáveis e apresenta maior maleabilidade e melhor tratamento com outliers.  Para manter um bom balanço entre o viés e a variância no método SVC, é necessário dosar dois hiperparâmetros, C e y. Os hiperparâmetros de um modelo contribuem para sua robustez e precisão, evitando que o modelo seja superdimensionado ou de eficiência insuficiente. O hiperparâmetro de regularização C controla a intensidade da regularização, mantendo com ela uma relação inversa. Quanto maior C, menor a intensidade da regularização, do tipo Ridge. O hiperparâmetro C é responsável por controlar o que se pode entender como a suavidade da margem que separa os dois clusters. Essa relação pode ser vista na figura a seguir.   Para valores mais elevados de C o classificador comete menos violações de margens, o que acaba reduzindo-a. Por outro lado, valores reduzidos para C aumentam o tamanho da margem, aumentando também o número de violações de margem. Esse manejo está diretamente ligado ao controle do sobreajuste do modelo.O hiperparâmetro y tem a função de calibrar a influência de vetores de suporte mais próximos ou mais distantes da linha separadora. Para entender melhor a importância de y é importante lembrar das funções de kernel, aplicadas em distribuições de pontos não linearmente separáveis. Essas funções realizam transformações nos pontos, tornando possível sua separação por um hiperplano. Esse processo é conhecido como um truque de kernel (kernel trick), e guarda uma relação muito próxima com o conceito de medida de similaridade. As funções de kernel podem ser mais elementares, como a polinomial de grau d, com inclinação a e uma constante de deslocamento c, muito popular em bases normalizadas. As funções de kernel também podem ser mais elaboradas, como a função laplaciana, com seu parâmetro de ajuste o.Os valores de entrada são os atributos originais e o valor de saída é uma medida da similaridade do novo espaço de atributos. Como mostrado na figura a seguir. À esquerda vemos uma distribuição de pontos não linearmente separáveis, mas após a aplicação de uma função de kernel, à direita, ocorre a separação entre os pontos em relação à nova medida de similaridade compondo o espaço de atributos. O SVM entende similaridade em termos de proximidade e com isso consegue realizar a separação dos pontos, mantendo os pontos semelhantes mais próximos entre si e mais afastados dos demais.O parâmetro y tem então um comportamento inverso ao do desvio padrão da função de kernel escolhida. Isso significa que um valor alto de y implica em uma função de kernel com baixa variância, implicando que dois pontos precisam estar relativamente próximos, para serem classificados como semelhantes. Em termos do classificador um valor alto de y fará com que apenas os pontos mais próximos da linha separadora afetaram na classificação dos pontos. Já um valor baixo de y define uma função de kernel com alta variância, o que pode classificar como similares pontos relativamente distantes entre si, o que se traduz numa influência maior dos pontos mais distantes da linha separadora, na classificação de pontos de teste. Como pode ser visto na figura a seguir. Imagine agora que consideremos um dataset semelhante ao apresentado anteriormente, mas agora com a inclusão do atributo C, como pode ser visto a seguir. A extrapolação do conceito bi-dimensional de linha separadora, para um conceito tri-dimensional de plano é apresentado na figura a seguir. Note que a dimensão do objeto geométrico separador das classes tem sempre uma unidade inferior àquela do espaço criado pelos atributos do dataset disponível. Isso quer dizer que em um sistema com n atributos, ou n-dimensional, o objeto separador terá (n-1) dimensões. Perceba que no sistema acima um plano corta o espaço formado pelos atributos A, B e C e separa as observações entre as classes de Círculos Vermelhos, abaixo do plano e Cruzes Azuis, acima do plano. A equação geradora de um plano com n dimensões, ou um hiperplano é apresentada a seguir:Em que Wj=(W0, W1, W2,..., Wn) representa um vetor com os coeficientes associados a cada atributo, a constante W0 representa o coeficiente de interceptação do hiperplano e o vetor X=(X1, X2,..., Xn) contém os atributos de nossas observações. O SVM traça um hiperplano entre os pontos, para separá-los e realizar sua classificação, lembre-se que para pontos originalmente linearmente inseparáveis é importante a aplicação de uma função de kernel.Uma vez que os pontos foram submetidos a uma função de kernel, que permite a criação de um hiperplano separador, o método classifica cada ponto como estando acima ou abaixo do hiperplano construído, como mostrado a seguir: Pontos que recebem valor -1 são classificados como estando abaixo do plano separador, pontos com valores +1 são classificados como estando acima do plano separador.O SVM é um dos métodos mais populares para a classificação de classes, ele tenta discriminar as classes de um dataset através da geração de um plano de separação entre os pontos. Para tanto o SVM pode mapear os dados com uma função de kernel que transforma os pontos e facilita a separação das classes. É importante tomar cuidado com o excesso de dimensões, que podem sobrecarregar o classificador forçando a aplicação de técnicas de análise de bases com alta dimensionalidade.Aprenda sobre SVMNa Digital House você aprende sobre o Support Vector Machines (SVM) com abordagem teórica e prática, através do nosso curso de Data Science.Leia mais no blog DH:+ Google Analytics Dashboard: crie e personalize com o nosso passo a passo+ O que é brand equity e como as empresas geram valor de marca em seus produtos e serviços+ Marketing digital para iniciantes: 10 dicas de como começar na carreiraE aí, já segue a gente no Twitter? Vem pra rede, vamos conversar sobre habilidades digitais! ;)

Inteligência de dados: guia completo com o que você precisa saber img
#Dados

Inteligência de dados: guia completo com o que você precisa saber

São milhares de informações disponibilizadas todos os dias na internet, que podem mudar a realidade e o rumo das empresas positivamente. Mesmo sabendo das vantagens consequentes da inteligência de dados, a má exploração na análise das mesmas ainda é um grande problema.Acompanhe este artigo e entenda o conceito, a importância da área e quem é esse profissional no mercado de trabalho. Boa leitura!O que é inteligência de dados?Hoje em dia, temos inúmeras ferramentas e plataformas disponíveis para coletar e analisar o grande volume de informações que crescem constantemente. A inteligência de dados trata de tirar insights, planejar soluções inteligentes para o negócio e tomar decisões estratégicas nesse processo.É algo essencial para qualquer empresa, pois é a área responsável por fornecer informações relevantes sobre os concorrentes, público-alvo, além das tendências do mercado.O segredo para o sucesso da inteligência de dados é a organização das informações, para simplificar as análises e aumentar o potencial da descoberta de mais insights. Usar esses dados evita achismos, garante o embasamento nas decisões e, consequentemente, mais chances de obter sucesso.Qual a importância do data intelligence?Utilizar a inteligência de dados ou data intelligence, como também é conhecido, já não é uma escolha, é uma necessidade! Todas as empresas consolidadas no mercado adotam a prática pelos benefícios que agregam ao negócio.Isso porque vivemos em um cenário dinâmico, em que as coisas não param de evoluir. Sendo assim, as organizações aderem às transformações digitais (potencializadas ainda mais na pandemia) e, em paralelo, o comportamento dos consumidores também se modifica. Por isso, tomar decisões baseadas em informações relevantes, atualmente, é a estratégia mais assertiva.Nesse processo de transição para o digital das empresas, elas buscam facilitar o trabalho de gestão em diversos sentidos. Isso porque, além das tecnologias que passam a fazer parte da produtividade, também há o grande volume de dados que cresce todos os dias, carregados de insights importantíssimos para qualquer negócio, e que precisa ser analisado cuidadosamente.Imagine, por exemplo, uma empresa que quer aumentar suas operações para diferentes mercados, mas precisa optar por qual caminho seguir. Se ela se basear em dados, será possível avaliar as opções com maior potencial de sucesso, garantindo que o investimento valha a pena.Podemos pensar também nos departamentos organizacionais, onde o time de conteúdo, por exemplo, precisa dos insights para fazer um marketing de conteúdo que agregue valor ao público, assim como a área de Customer Experience (CX), que precisa ter informações inteligentes do público-alvo para oferecer a melhor experiência ao usuário.Quem são os profissionais de inteligência de dados?São diversas carreiras que atuam com a inteligência de dados, sejam analistas, consultores, gerentes, supervisores, cientistas de dados, entre muitos outros. Esses profissionais precisam ter habilidades analíticas para ler, coletar e analisar dados com precisão.De acordo com um levantamento realizado pela Plugar, 65% destes profissionais estão concentrados no sudeste do País, principalmente na cidade de São Paulo e região, onde também fica a maior concentração de universidades que os formam, além das empresas que os contratam. Com isso, podemos concluir que ainda há muito espaço para novos profissionais em outras localidades.Além disso, há muita demanda para profissionais de dados e poucos profissionais qualificados, que não são suficientes para suprir toda essa necessidade. Ou seja, o mercado está extremamente aquecido e, se você tem interesse, este é o melhor momento para ingressar na área, que é uma promessa para o futuro, além de uma garantia de boa estabilidade profissional.Depois de saber um pouco mais sobre a área de dados, fica difícil não se interessar pelo segmento, não é mesmo? Neste contexto, ter uma certificação ou diploma é uma ótima opção para desenvolver uma base sólida de conhecimentos e utilizá-los no dia a dia das empresas, além de ser um diferencial no mercado de trabalho, quando for fazer entrevistas.A Digital House entende essa realidade e oferece os cursos de Data Science e Data Analytics, que ensinam o aluno a tomar decisões com base em dados, além de gerar inteligência para o negócio, a partir de diferentes ferramentas, como PowerBI, SQL Server e outras.Que tal garantir seu sucesso profissional conosco? Todos os alunos também podem participar do programa gratuito de apoio à recolocação e de feiras de recrutamento exclusivas (Recruiting Day).Por que investir na cultura data-driven?Investir em uma cultura data-driven é buscar resoluções que trazem resultados mais assertivos em diferentes segmentos de mercado, por meio da coleta e análise de dados. E isso precisa ocorrer de maneira organizada, nos diversos departamentos de uma organização, para que não haja limitação de acesso.A cultura data-driven permite que um grande conjunto de dados seja compilado em um só lugar, para que todas as áreas de uma empresa tenham acesso de maneira simples e efetiva.Pensando no mercado, que é cada vez mais competitivo, implantar a cultura data-driven e a inteligência de dados agrega e contribui para a conquista e prospecção de novos clientes, além da retenção dos já existentes, estando na frente da concorrência. É, sem dúvida, um investimento rentável por garantir que as tomadas de decisão sejam as melhores nos planejamentos.Para que todo esse processo aconteça da melhor maneira, é necessário que a gestão tenha um mindset ágil. Recomendamos a leitura do nosso artigo sobre gestão de produtos, entendendo também a importância dele no mercado e as principais habilidades exigidas pelo mercado.Leia mais no blog DH:+ Google Analytics Dashboard: crie e personalize com o nosso passo a passo+ O que é brand equity e como as empresas geram valor de marca em seus produtos e serviços+ Marketing digital para iniciantes: 10 dicas de como começar na carreiraE aí, já segue a gente no Twitter? Vem pra rede, vamos conversar sobre habilidades digitais! ;)