[Parte 3 do Projeto Plataforma Mil Talentos] Depois que decisões de negócios e inovações de engenharia levaram a um aumento no desempenho de compras online durante a semana, nos concentramos na otimização da experiência do desenvolvedor e adotamos o SRE novamente.

Para lançar um novo recurso algumas semanas antes da semana de compras online, como garantir que o novo recurso possa resistir às multidões da Black Friday e manter a confiança dos clientes no site? A Zalando adotou uma abordagem ousada naquele ano, recriando a carga explosiva das compras online com semanas de antecedência em um ambiente formal durante a semana para testar novos recursos.
Depois que o desenvolvimento tecnológico da Zalando entrou em um estágio maduro, a tomada de decisões técnicas não é mais tão livre como quando o Radical Agile foi lançado pela primeira vez. Em vez disso, ela é liderada pela comunidade de engenharia sênior e um gráfico de radar técnico (Tech Radar) foi desenvolvido. para ajudar centenas de equipes na tomada de decisões técnicas. Cada equipe é obrigada a consultar esta lista compartilhada de recomendações tecnológicas como referência para a seleção de tecnologias para novos projetos. Não há necessidade de realizar avaliações técnicas do zero sempre que um novo projeto é lançado, e as seleções podem ser feitas diretamente consultando a lista. listar recomendações. Como cada equipe se refere ao mesmo gráfico de radar tecnológico para seleção, a Zalando pode garantir que as tecnologias usadas em diferentes projetos estejam dentro do escopo desta lista de tecnologia compartilhada para alcançar o foco tecnológico em toda a empresa. / O desenvolvimento tecnológico da Zalando entrou em um estágio maduro, contando com o radar tecnológico para focar nas decisões técnicas de centenas de equipes. De 2009 a 2019, o lado organizacional da Zalando passou por muitas mudanças, e seu lado técnico também se desenvolveu em grande escala. arquitetura descentralizada de microsserviços. De acordo com números revelados por Zalando na DevOpsCon de Berlim de 2022, o número de microsserviços em 2019 chegou a quatro a cinco mil. Neste momento, o desenvolvimento tecnológico da Zalando entrou em um estágio maduro. A tomada de decisões técnicas não é mais tão livre como quando o Radical Agile foi lançado pela primeira vez. Em vez disso, é liderada por uma comunidade de engenheiros seniores e um gráfico de radar técnico (Tech Radar). desenvolvido para auxiliar 2 centenas de equipes na tomada de decisões técnicas. O design deste gráfico de radar tecnológico refere-se à prática da ThoughtWorks Consulting Company, mas foi desenvolvido em uma versão exclusiva da Zalando. Esta consultoria possui quase uma centena de termos técnicos abrangendo quatro categorias: tecnologia, ferramentas, plataformas, frameworks e linguagens. Eles são divididos em quatro níveis de acordo com o grau de adoção recomendado e dispostos em um gráfico de radar circular dividido em quatro quadrantes. Neste gráfico de radar tecnológico, são listados os níveis de adoção recomendados de diferentes tipos de tecnologias. Diferentes anéis são usados ​​para representar diferentes níveis de recomendação. Quanto mais próximo o anel estiver do núcleo, maior será o nível de recomendação para esta tecnologia. A Zalando fez um balanço das suas necessidades e finalmente concentrou-se nas tecnologias relacionadas com o desenvolvimento de software, incluindo quatro categorias principais: armazenamento de dados, gestão de dados, infraestrutura e linguagens de desenvolvimento. O nível de adoção recomendado é dividido em quatro níveis, formando quatro anéis, cada anel representando um nível de recomendação diferente. Esses quatro níveis incluem: Adotar (recomendado para adoção), Teste (recomendado para teste), Avaliar (fase de avaliação) e Manter (reservado, mas não recomendado). As tecnologias de teste recomendadas referem-se a tecnologias que já tiveram projetos internos bem-sucedidos e são usadas pelo menos para lidar com problemas reais em vez de situações simuladas. Elas também atribuem importância à ampla adoção e são tecnologias nas quais os executivos seniores estão dispostos a investir no longo prazo. . nível. As tecnologias listadas na fase de avaliação referem-se a um grupo de tecnologias que têm valor potencial óbvio e são dignas de investimento. Ao analisar automaticamente os dados dos planos de teste em todos os produtos, podemos descobrir as tecnologias que foram testadas e são dignas. de ser incluído na fase de teste da tecnologia. . A última categoria de níveis reservados é a tecnologia que não é recomendada, mas que continuará a ser mantida. Além de estar indisponível para novos projetos, também é desencorajada a sua utilização para serviços promocionais. A amplitude de aplicação deste tipo de tecnologia deve ser gradualmente. estreitado. Cada tecnologia também será acompanhada por um documento de descrição técnica, que lista as vantagens, desvantagens, limitações, condições de uso e lições aprendidas após o uso da tecnologia. Cada tecnologia possui um documento, e todos os documentos técnicos são compilados em uma base de conhecimento técnico. Zalando também compilou modelos e guias de adoção para essas tecnologias recomendadas no gráfico de radar de tecnologia. Os guias fornecerão descrições de perguntas frequentes ao usá-las, ou casos de uso de equipes que as adotaram, ou mesmo comparações entre diferentes tecnologias alternativas.

De vez em quando, para ajustar o nível de recomendação tecnológica, o engenheiro-chefe coletará os dados reais de uso de cada tecnologia no radar tecnológico existente, incluindo volume de uso, registros de incidentes e experiência de adoção (por exemplo, há quantos anos esta tecnologia foi introduzida no Zalando? ) e, em seguida, realizará a pontuação. O engenheiro-chefe de manutenção designado criará primeiro uma planilha de pontuações de novas tecnologias e, em seguida, a abrirá para a comunidade de engenheiros-chefes votar para decidir se deve "atualizar" ou "rebaixar".

Zalando exige que cada equipe consulte esta lista de tecnologias compartilhadas como referência para selecionar tecnologias para novos projetos. Não há necessidade de realizar avaliações técnicas do zero sempre que um novo projeto é lançado. Como cada equipe se refere ao mesmo gráfico de radar tecnológico para seleção, a Zalando pode garantir que as tecnologias utilizadas em diferentes projetos estejam dentro do escopo desta lista de tecnologia compartilhada para atingir o foco da direção técnica.

Zalando renomeou o departamento de infraestrutura digital original para departamento de construção (Build) e continua a ser responsável por construir e melhorar a plataforma do desenvolvedor para atender especificamente aos desenvolvedores. O departamento de construção começou a estudar a jornada do cliente do desenvolvedor, ou seja, a jornada diária de trabalho do desenvolvedor, e descobriu que as plataformas de desenvolvimento utilizadas pelos desenvolvedores eram bastante dispersas. Cada equipe se comunicava com seus membros à sua maneira e faltava. conhecimento comum em toda a empresa.

Resolva o problema da fragmentação do processo do desenvolvedor e crie um site de portal do desenvolvedor

Para resolver o problema do fluxo de trabalho fragmentado dos desenvolvedores, o departamento de construção criou um portal para desenvolvedores Sunrise (Sunrise Platform) como o primeiro site que os desenvolvedores abrem todos os dias quando vão trabalhar. Os usuários desta plataforma incluem engenheiros de software, engenheiros de dados, diretores técnicos, cientistas de dados, gerentes de projeto, designers, etc.

Com base no projeto de plataforma de gerenciamento de ML de código aberto do Spotify, Backstage, o departamento de construção integrou muitas ferramentas técnicas internas da Zalando, componentes de desenvolvimento, modelos de implementação e documentos técnicos para projetar esta plataforma interna de desenvolvedor de autoatendimento dedicada (Plataforma de desenvolvedor interna, a operação da interface é). tão suave quanto uma plataforma comercial de colaboração de nível empresarial, e os detalhes do design UX são enfatizados para orientar os desenvolvedores a começar. Até mesmo os desenvolvedores podem ver diretamente os dados de monitoramento comuns dos APs responsáveis ​​na plataforma Sunrise.

A primeira página que os desenvolvedores veem quando abrem a plataforma Sunrise reúne todos os pontos de informações comumente usados ​​​​nesta noite, para que possam pesquisar facilmente os aplicativos específicos pelos quais são responsáveis ​​​​e as APIs comumente usadas, e também podem ver rapidamente quem é o proprietário dedicado de cada aplicativo ou API. Se necessário, você pode enviar um ticket diretamente nesta página para buscar ajuda, em vez de ter que se inscrever por meio de outro sistema como no passado? A página inicial da Plataforma Sunrise integra também toda a informação de eventos dos APs de responsabilidade de todos os desenvolvedores, bem como documentos de referência que podem ser subscritos.

Engenheiros ou outros usuários podem verificar o progresso ou status de cada estágio do ciclo de vida do produto, monitorá-lo em tempo real e colaborar com equipes e outros indivíduos para solucionar problemas no processo de CI/CD. Os membros da equipe Zalando podem até inicializar e implantar novos aplicativos usando o Sunrise.

Para criar esta plataforma interna de desenvolvedor conveniente e fácil de usar, Zalando compartilhou publicamente várias chaves.

Por exemplo, eles modificaram diretamente o código-fonte do K8s para resolver o problema, transformando o K8s em um sistema que eles podem controlar para desenvolver sua própria plataforma nativa em nuvem. Por exemplo, a plataforma Sunrise usa uma função de encapsulamento kubectl desenvolvida e personalizada.

Quando ocorre uma emergência e você precisa criar rapidamente um cluster k8s de acesso temporário, esta função de encapsulamento pode ser útil. Você não precisa seguir a função de encapsulamento padrão original, o que reduz ainda mais o tempo de implantação. Outra chave é que Zalando também digitaliza a “experiência de desenvolvimento”, o que significa medir a eficácia da plataforma de desenvolvimento na experiência e produtividade do desenvolvedor.

Zalando referiu-se às recomendações de um livro "Accelerate: The Science of Lean Software and DevOps" (o nome da versão chinesa de Taiwan é "The Science Behind Lean Software & DevOps") para definir quatro indicadores da matriz de desempenho do desenvolvedor.

Inclui lead time, frequência de liberação, tempo médio de recuperação (Time to Restore Service) e taxa de falha de alteração (Change Fail Rate). Isso é exatamente o que são os quatro indicadores usados ​​​​no conhecido conceito de indicador de desempenho DevOps.

No entanto, o método específico de Zalando para medir os quatro indicadores é um pouco diferente. O tempo de preparação vai desde o Commit até o lançamento oficial do ambiente. Frequência de lançamento: o número de implantações por desenvolvedor por semana. O tempo médio de recuperação é calculado a partir do momento em que o evento ocorre até o momento em que o serviço é restaurado (não a partir do momento em que o serviço falha). A taxa de falha da última alteração é calculada com base em quantas falhas ocorrem entre todos os tempos de implantação.

O maior benefício da plataforma de desenvolvimento Sunrise é que ela mantém todos os desenvolvedores no mesmo caminho. Além disso, também pode atender às necessidades de diferentes divisões organizacionais de trabalho em departamentos assíncronos para fornecer flexibilidade. de Zalando O gráfico de radar técnico e toda a experiência técnica prática de referência, os documentos de teste da equipe de verificação e até mesmo modelos relevantes de práticas e processos maduros. Pode ser focado através de uma única plataforma, sendo recomendado que a equipe de desenvolvimento utilize a tecnologia que deseja agregar particularmente.

O objetivo do design do site Zalando Sunrise é "deixar os desenvolvedores felizes e produtivos!". Ele fornece a melhor experiência do desenvolvedor e reduz ao máximo a carga cognitiva da equipe técnica e da equipe de desenvolvimento para aumentar a velocidade e a produtividade do desenvolvimento. Esta foi a primeira vez que Zalando divulgou o processo de desenvolvimento da Plataforma Sunrise na Conferência de Engenharia de Plataforma do ano passado. Henning Jacobs, engenheiro-chefe sênior de Zalando, enfatizou este assunto.

Para resolver o problema do fluxo de trabalho fragmentado dos desenvolvedores, o departamento de construção da Zalando criou um portal para desenvolvedores Sunrise (Sunrise Platform) como o primeiro site que os desenvolvedores abrem todos os dias quando vão trabalhar. /Zalando

[Parte 3 do Projeto Plataforma Mil Talentos] Depois que decisões de negócios e inovações de engenharia levaram a um aumento no desempenho de compras online durante a semana, nos concentramos na otimização da experiência do desenvolvedor e adotamos o SRE novamente.

Sunrise (Sunrise Platform) usa o projeto de plataforma de gerenciamento de ML de código aberto do Spotify, Backstage, como base, integrando muitas ferramentas técnicas internas da Zalando, componentes de desenvolvimento, modelos de implementação e documentos técnicos para projetar esta plataforma interna de desenvolvedor de autoatendimento dedicada (Plataforma de desenvolvedor interna). Os desenvolvedores Zalando podem usar a plataforma Sunrise para obter informações sobre diversas ferramentas e serviços criados por diferentes departamentos e equipes de produtos da empresa, bem como obter todos os serviços de suporte em um só lugar. /Zalando

 

Os desenvolvedores Zalando podem revisar e gerenciar rapidamente o andamento dos projetos de produtos pelos quais são responsáveis ​​na plataforma Sunrise. /Zalando

Abrace ativamente o SRE novamente e até mesmo crie um departamento de SRE dedicado

Por outro lado, como mencionado anteriormente ao falar sobre a Semana de Compras Online, Zalando mais uma vez estabeleceu uma equipe de suporte SRE. Em 2019, estabeleceu diretamente um departamento SRE dedicado. Este departamento inclui uma equipe de registro de log, uma equipe de matriz de rastreamento, um incidente. equipe de resposta e coaching de inicialização A composição da equipe permite que esse grupo de pessoas se concentre na mesma visão e objetivos por meio do mesmo conjunto de KPIs.

Andrew Howden destacou: "O objetivo do departamento de SRE é estabelecer um conjunto de modelos-chave de operações de manutenção de negócios, com foco na experiência do cliente e na solução de problemas de alinhamento entre departamentos. Ele esteve envolvido no processo de desenvolvimento de SRE da Zalando nos últimos quatro anos." anos.

A principal manutenção do negócio é um objetivo de nível de serviço (SLO) que se concentra na experiência do cliente. Ao medir a interação entre os clientes e o site, as perspectivas dos desenvolvedores, gerentes e clientes podem ser integradas no mesmo conjunto de dados, e esses dados podem. ser usado para melhorar a confiabilidade.

Estabeleça uma equipe SRE integrada para resolver problemas específicos de manutenção e operação

Ter um departamento SRE dedicado não é suficiente Zalando também criou uma nova equipe SRE chamada Embedded SRE para resolver os desafios especiais do processo de checkout. Por exemplo, alguns compradores malucos irão repentinamente direcionar produtos específicos para grandes vendas, causando alguns problemas no sistema. Esse tipo de problema no processo de checkout envolve comunicação e colaboração entre mais de uma dúzia de aplicativos, 4 ou 5 departamentos e centenas de engenheiros. Andrew Howden é o líder desta equipe e lidera 2 engenheiros.

Andrew Howden primeiro analisou o impacto dos sistemas de produtos relacionados por trás de diferentes exceções de checkout e encontrou soluções uma por uma. Ele lidou com problemas como um grande número de solicitações que sobrecarregaram o sistema e não responderam, fazendo com que o software de gerenciamento de cluster fosse reiniciado automaticamente, mas fazendo com que todo o sistema fosse desligado.

Como o sistema de checkout é uma arquitetura de microsserviços distribuída em larga escala, ele foi originalmente projetado no modo de disjuntor para evitar chamar continuamente o mesmo serviço com falha. No entanto, como o design do disjuntor é muito sensível, quando um sistema falha, ele falha. começa a afetar O julgamento da taxa de erro dos disjuntores em outros sistemas terá um impacto em cascata.

Ou outro problema é que, para garantir a confiabilidade, o sistema de checkout projetou muitos mecanismos de expansão automática. Uma vez descoberto que a velocidade de resposta da solicitação de checkout de um cliente diminuiu, ele se expandirá automaticamente. nos custos da nuvem. Mais tarde, descobriu-se que um pequeno número de clientes gera um grande número de solicitações devido ao seu comportamento de compra, fazendo com que esse pequeno grupo de pessoas responda lentamente. definido de acordo com um padrão que pode cobrir 99.9% dos clientes em geral. O limite superior do número de solicitações de um cliente pode reduzir o impacto do comportamento maluco de um cliente específico no mecanismo de expansão automática.

Integrar experiência na resolução de problemas de manutenção na manutenção diária

Porque normalmente leva apenas 3 semanas para resolver um problema, mas leva 3 meses para transferir a experiência de lidar com esse problema anormal para a equipe da plataforma e as diferentes equipes responsáveis ​​pelo produto envolvidas. O último desafio de incorporar a equipe SRE é como transformar a experiência de resolução desses problemas de manutenção em parte da manutenção diária.

Zalando realiza reuniões semanais de revisão operacional (WORMs) todas as semanas. A comunidade de engenheiros-chefes usa essa reunião para revisar relatórios pós-análise e vários problemas de manutenção. No entanto, a qualidade desses relatórios de análise varia muito e os engenheiros despendem muito esforço na preparação desses documentos.

Incorporar a equipe de SRE ajuda a automatizar o processo de produção desses relatórios de análise e ainda adiciona sugestões de ajustes relacionados às práticas de SRE. O relatório pode ser enviado automaticamente para esta equipe, e o relatório também pode ser enviado automaticamente para a equipe de gerenciamento de engenharia para revisão semanal. .

Em meados de 2023, a equipe de SRE incorporada concluiu os problemas que foi originalmente criada para resolver e encerrou a tarefa desta equipe. Andrew Howden também encerrou sua jornada na Zalando em agosto e se tornou um consultor fornecendo treinamento em SRE.

No entanto, a engenharia da plataforma Zalando não parou o ritmo das mudanças e ainda está evoluindo.

Avalie o artigo
Mostrar código de verificação
👩🏻‍🦱客服">
没有账号?👨售后  忘记 密码?