C++ Problema para ler uma string com acento

kurt Rodrigues · 14 de abril de 2018

Olá por favor estou com problema para ter ler um input de uma string com acento. Usando setlocale arrumei a saída, mas a entrada

ainda permanece com uma simbolo no lugar da letra acentuada. Alguém por gentileza poderia me indicar onde se encontra o erro. Grato

/*15) Faça um algoritmo e o fluxograma que leia o nome da capital do Brasil. Se a
resposta estiver correta, imprimir PARABÉNS, caso contrário, ERROU.
(Considerar: Brasília).*/

#include <stdio.h>
#include <stdlib.h>
#include <locale.h>
#include <string.h>

main () {

setlocale (LC_ALL,"portuguese");

//----------------------------------------------------
char capital[9];
printf("Digite qual é a capital do Brasil: ");
fgets(capital,9,stdin); // limitar a string a 8 caractes + 1

//----------------------------------------------------
if (strcmp(capital,"Brasília")==0) { // COMPARA DUAS STRINGS

printf("PARABÉNS");
}

else {
printf("**INCORRETO**\n\n O digitado foi %s e o correto é Brasília\n",capital);
}

}

Davi Silva Santos · 14 de abril de 2018

Brasília tem mais de oito caracteres, pois está codificada em UTF-8 quando é passada pelo terminal. A codificação UTF-8 é a mesma da ASCII para os caracteres que estão na tabela ASCII original, e para os que não estão, vai acrescentando bytes extras na frente do caractere.

A comparação com strcmp() irá sempre falhar pois fgets() limitou o tamanho da string a ser lida e acabou deixando-a truncada. Tente imprimir a string recebida pelo programa antes de comparar para ver o que está acontecendo.

Uma solução rápida para o problema seria acrescentar um caractere a mais para ser lido pela string. Observe a saída dos seguintes programas executados em um sistema com locale pt-BR.utf8:

echo a | xxd -b
00000000: 01100001 00001010                                      a.

echo í | xxd -b
00000000: 11000011 10101101 00001010                             ...

O primeiro comando retornou que os caracteres passados pelo terminal foram um 'a', que em binário vale 97 pela ASCII e um newline, que vale 10 em decimal. São dois bytes de informação e o próprio caractere ocupa somente um byte. Já no segundo, temos dois caracteres iniciando em 1, indicando que estão fora da ASCII clássica de 7 bits, seguidos de um newline. Isso significa que o caractere 'í' ocupa dois bytes, o dobro que um caractere comum ocuparia.

Ansi C · 14 de abril de 2018

Davi Silva Santos · 16 de abril de 2018

@vangodp A solução que propus é válida para sistemas baseados em Unix, como o Linux. Esses sistemas usam a codificação UTF-8, que é mais fácil de trabalhar uma vez que entenda como ela funciona, pois os caracteres que pertencem a ASCII original são mantidos intactos e os que estão de fora são precedidos de bytes extras.

Vou tentar explicar com mais detalhes...
Uma descrição bem detalhada da tabela ASCII pode ser encontrada na documentação do seu sistema operacional baseado em Unix através do comando `man ascii`. Resumindo toda essa informação, o ASCII codifica os caracteres em sequências de 7 bits. Como a maioria dos sistemas mapeia nativamente a memória em pedaços de 8 bits ou consegue mapeá-la assim, quando pede-se para visualizar um caractere ASCII comum você verá o oitavo bit, se o sistema é little-endian, ou o primeiro bit se ele é big-endian, como um zero.

A codificação UTF-8 se aproveita dessa característica do ASCII. Dado que os caracteres ASCII nativos tem somente 7 bits preenchidos, ela coloca os caracteres extras em vários bytes que têm um oitavo bit preenchido. Essa maneira simples de codificar os caracteres garantem que seja possível escrever programas em C com suporte básico a muitos caracteres sem usar a `locale.h`.

Como resultado disso, se você usa um `printf("ç\n")`, caso seu editor de texto e seu terminal estejam configurados para UTF-8, tudo ocorrerá perfeitamente. No caso de comparação de strings é necessário saber quantos bytes o caractere extra ocupa, para o caso de usar uma função mais segura como o `fgets()` e definir uma string com o tamanho definido pelo compilador, caso não saiba o tamanho dos caracteres: `char s[] = "çççç"` na hora da comparação.

Um bom vídeo de um bom canal (em inglês):
https://www.youtube.com/watch?v=MijmeoH9LT4

cyer · 16 de abril de 2018

Apenas use string em vez da string da linguagem C, se você está programando em C++, deve evitar ao máximo o uso de de recursos e funções da linguagem C.

#include <iostream>
#include <string>
#include <locale.h>

int main()
{
    setlocale(LC_ALL, "Portuguese");

    std::string capital;

    std::cout << "Digite qual é a capital do Brasil: ";
    std::cin >> capital;

    if (capital == "Brasília")
        std::cout << "PARABÉNS" << std::endl;
    else
        std::cout << "**INCORRETO**\n\n O digitado foi " << capital << " e o correto é Brasília\n";
}

kurt Rodrigues · 2 de maio de 2018

Agradeço as respostas. Vou checar as soluções propostas por vocês, fico agradecido de verdade!

isrnick · 2 de maio de 2018

O programa do @kurt Rodrigues foi feito em C, não C++, todas as bibliotecas e comandos são do C.

Ansi C · 2 de maio de 2018

tag do poster esta lá errado. Ou para o autor é tudo igual CC++

3 de maio de 2018

Olá. Apesar da resposta para o problema já ter sido postada acima de maneira bem eficaz, por sinal, vou postar um forma de resolver a questão d entrada de dados, até aí vai tudo bem. A resposta, no caso Brasília, é lida e impressa da maneira correta no programa.

Mas o negócio complica na hora de fazer a comparação. Daí para tratar essa parte fiz uma "gambiarra legal"

Baseado nisso fiquei pensando se não tem alguma outra codificação q resolva as duas partes: Leitura do valor digitado e o uso adequado da função strcmp() apenas usando a função setlocale()

Apenas para curiosidade, segue o código:

#include <stdio.h>
#include <stdlib.h>
#include <locale.h>
#include <string.h>

int main ()
{
    //----------------------------------------------------
    char capital[15];
    char ch;
    char buffer[20];

    setlocale(LC_ALL, "pt_BR.UTF-8");

    printf("Digite qual e a capital do Brasil: ");
    fgets(capital, 15, stdin);
    strtok(capital, "\n");
    if (strlen(capital) == 15 - 1)
    {
        while ((ch = getchar()) != '\n' && ch != EOF);
    }

    printf("\n%s\n", capital);

    printf("\nTamanho: %d\n", strlen(capital));
    //----------------------------------------------------

    sprintf(buffer, "Bras%clia", 161);

    if (!strcmp(capital, buffer))
    {
        printf("\nParab%cns! Resposta correta\n", 130);
    }
    else
    {
        printf("\nErrou!\n");
    }
}

Não vale rir da resposta q dei para o exercício!

3 de maio de 2018

Em um comentário acima foi falado da codificação UTF-8 no caso do Unix e inclusive foi mencionado a questão d, ao usar essa codificação, a maneira d fazer a comparação das strings muda. Só q p mim não ficou claro a forma como fazer essa comparação d maneira adequada. Se alguém tiver alguma sugestão agradeço

adicionado 3 minutos depois

Até onde cheguei foi na parte de resolver a questão de leitura e impressão do texto lido de maneira adequada.

Mas foi só até essa parte. Inda, ao meu ver, ficou pendente a questão da apresentação do resultado em uma abordagem mais adequada q essa q fiz

adicionado 31 minutos depois

Outra forma d definir a localização e resolver a questão de leitura e impressão de uma String com acentuação brasileira seria essa:

setlocale(LC_ALL, "Portuguese_Brasil.1252");

Tal como o autor da resposta mais adequada para esse exercício usou para resolver o mesmo. Mas na hora de fazer a comparação da erro, usando essa codificação na função setlocale() do modo como fiz agora

Ansi C · 3 de maio de 2018

Eh usaria wide char

Pombinho · 21 de setembro de 2019

@vangodp Valeu, cara! Consegui o que eu queria só mudando a paginação de código (codepage) com o comando

system("chcp 1252");

Marcos Ranes · 11 de fevereiro de 2020

system("chcp 1252 > nul");

usa assim para não printar saída no console.

Thiagosquid · 17 de junho de 2021

@Marcos Ranes Muito obrigado, funcionou aqui.

Eu estava com problema no getline, que mandava as palavras com caracteres especiais truncadas para o banco de dados. E com esse comando aí agora está mandando tudo certinho.

arfneto · 17 de junho de 2021

Em 14/04/2018 às 23:30, vangodp disse:

asc2

O II de ASCII significa Information Interchange. Já tinha lido antes asc2, mas lembro que não existe relação entre o 2 e II como seria 2 em romanos, assim como nunca existiu asc1 ou asc3 for that matter. Apenas ASCII, American Standard Code for Information Interchange, contemporâneo ao EBCDIC --- de Extended Binary Coded Decimal Interchange Code --- da IBM, que era a outra codificação da época.

Em 10/02/2020 às 22:23, Marcos Ranes disse:

system("chcp 1252 > nul");

Evite system() a todo custo. Está usando Windows e C então tem acesso a tudo no sistema. E aí chamar o shell do sistema e passar uma string com um comando é um pouco ingênuo. Não estará fazendo nada exceto passar uma string.

Em Windows o comando em C é

https://docs.microsoft.com/en-us/windows/console/setconsoleoutputcp

	SetConsoleOutputCP( 1252 );

E o certo é ler qual a página em uso e salvar, mudar para a que quer usar e restaurar a original na saída. Não é certo mudar a configuração do sistema a partir de um programa e DEIXAR alterado. . .

Para ler a página use

	unsigned pagina_orginal = GetConsoleOutputCP();
	SetConsoleOutputCP( 1252 );

	// ... e na saida

	SetConsoleOutputCP( pagina_original );

	// ...

É o civilizado.

Em 14/04/2018 às 23:30, vangodp disse:

Vei!!! você não sabe o que me custou aprender a corrigir esse problema.... Acredito que algum moderador deveria fixa-lo para outros usuários ter acesso.

Na maioria de lugares que você pesquisar vão lhe recomendar usar o setlocale, e em um principio está muito bem, com ele você pode mostrar os dados de forma satisfatória, mas como você pode averiguar, a entrada não funciona com setlocale, só a saída, por isso anote tudo, pois como falei.... levei anos descobrir, certamente outros podem descobrir em minutos ou horas, mas eu levei anos para dar com a resposta

Tem razão, @vangodp: isso é um 1nf3rn0 pra dizer o mínimo. Mas não tem de fato solução e o problema mesmo aparece na hora de ler e gravar em arquivos e comparar essas coisas. E classificar.

A página de código recomendada para o Windows é 65001 há anos. O Windows usa Unicode. Codepages estão documentadas aqui https://docs.microsoft.com/en-us/windows/win32/intl/code-page-identifiers

Hoje tem os emoji e milhares de símbolos diferentes, e os caracteres podem usar de 1 a 4 bytes cada um, e é um inferno usar isso. Fuja sempre que possível e use por exemplo um navegador. Unicode tem capacidade para mais de um milhão de símbolos. E ao gerar um arquivo com símbolos possivelmente multi-byte é preciso saber a ordem em que os bytes são gravados, e assim precisa gravar (e ler) no início do arquivo algo chamado BOM que indica qual byte bem primeiro no disco para cada par. E depois disso tratar os caracteres como tal. E imagine classificar um arquivo em ordem alfabética. Como fazer com as letras sem saber se foi gravado em um sistema que usava hebraico? ou algo tipo cirilico? Como comparar Á e Ã com A? Em que codificação?

Sai caro isso.