Ler título de livro PDF e associar com um título de livro em csv

10 de maio de 2022 4 respostas

vcosmusjoao 10 de maio de 2022

Olá, estou montando um projeto em Java que preciso fazer a seguinte situação:
Um vendedor irá cadastrar um catálogo de livros em csv por exemplo, nesse catálogo terá informações como título, editora, ano e etc, a partir de então esse catálogo ficará reservado para essa vendedora, porém quando ela subir o pdf de um livro esse mesmo deverá de alguma forma ler o pdf e associar o título do livro em pdf por exemplo com o título do livro do catálogo e dessa forma acrescentar na quantidade, por exemplo… ou seja como se fosse um marketplace, onde terei uma lista de livros e conforme tenho o pdf eu vou adicionando e aquele catálogo vai se associando com cada pdf, alguém tem ideia de como poderia fazer essa associação em Java? Sei que tenho que usar provavelmente algum leitor de pdf para fazer isso mas não tenho muita ideia de como irei fazer pra comparar um com outro e se sim ele irá adicionar

4 Respostas

davidbuzatto 10 de mai. de 2022

Juro que tentei, mas não consegui entender o que vc precisa.
Vc quer editar um PDF ou quer ler algo de um PDF?

AbelBueno 10 de mai. de 2022

Se você quer extrair o título do conteúdo do PDF em si, você pode dar uma procurada por “java pdf reader” e ver algumas opções. Eu usei o itext no passado e era OK, mas ela é paga pra código fechado.
Tem uma chamada Pdfbox que recomendaram no stackoverflow também.

Porém, como é muito comum, talvez você esteja querendo implementar algo muito mais difícil por estar seguindo exatamente o que te pediram pra fazer.
Esse software é para estudo ou para uso real em algum lugar?

Você pode mudar esse processo ligeiramente para no momento que a pessoa estiver fazendo upload, ela já associar diretamente com um dos livros do catalogo. Dessa forma a pessoa fazendo upload fica responsável pela informação correta.
Isso pode evitar vários problemas com títulos ligeiramente diferentes, títulos em diferentes idiomas, etc.

Ler o título direto do livro pode ser bem complicado pois não há regra de como o título está apresentado. Pode ser uma imagem, na terceira ou quarta página, etc.

vcosmusjoao 10 de mai. de 2022

Opa amigo, desculpa a falta de clareza mas basicamente é o seguinte, um vendedor irá subir um arquivo .csv com um catálogo de livros, ex:

Harry Potter, 2004, editora x
As vantagens de ser invisível, 2010, editora y
O diário de um banana, 2011, editora b

Aí o mesmo cara irá subir os pdfs desses livros e a lógica seria no momento que fizesse upload eu teria que associar de alguma forma o pdf com os caras do catálogos, ou seja eu teria que por exemplo achar o título do livro no pdf e se desse match com o título do livro no catálogo teria essa associação, não sei se ficou mais claro?!?

vcosmusjoao 10 de mai. de 2022

Então, foi exatamente o que eu pensei… esse desafio foi pra um processo seletivo de um amigo aí acabei achando bem desafiador, e quis fazer como a empresa faz essa análise de dados a partir de pdfs eles queriam exatamente isso, eu também pensei como você, ou seja, quando a pessoa fazer upload do documento já fazer associação com o um dos livros do catálogos, basicamente é isso que eles querem, sendo bem explícito:

Ao fazer upload do arquivo, você deve interpretar o texto do PDF e identificar qual item do catálogo daquele vendedor esse documento está associado. Existem uma série de técnicas para fazer essa comparação, não se preocupe em fazer um match perfeito, mas se atente aos detalhes para fazê-lo eficientemente, melhorar a acurácia dele e minimizar matches equivocados.

Criado 10 de maio de 2022

Ultima resposta 10 de mai. de 2022

Respostas 4

Participantes 3

4 Respostas

Topicos relacionados