53
Como publicar informação preservável para o futuro Daniel Bicho [email protected] 2018-04-13

Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Como publicar informação preservável para o futuro

Daniel Bicho

[email protected]

2018-04-13

Page 2: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Funcionamento do Arquivo.pt

Page 3: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Funcionamento do Arquivo.pt

Recolha Reprodução

1 2

Page 4: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Recolha é feita de forma automática por um Robot

Page 5: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Reprodução de páginas preservadas

Page 6: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Nem sempre corre tudo bem!

Page 7: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

6recomendações para publicar

informação preservável

Page 8: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Identifique corretamente a data de publicação (#1)

Page 9: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Qual a data de publicação?

Page 10: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Identificar corretamente a data de publicação (#1)

Page 11: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Autorize a recolha de conteúdos importantes através do Robots Exclusion Protocol (#2)

Page 12: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

DN.pt: como era (2016)

Page 13: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

DN.pt: como foi preservado

Page 14: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Robots Exclusion Protocol foi origem do problema de preservação

User-agent: *Disallow: /common/scripts/Disallow: /common/css/Disallow: /search/

http://www.dn.pt/robots.txt

Page 15: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

"Disallowing crawling of Javascript or CSS files in your site’srobots.txt directly harms how well our algorithms render andindex your content and can result in suboptimal rankings."

https://webmasters.googleblog.com/2014/10/updating-our-technical-webmaster.html?m=1

Page 16: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

B-on.pt: como foi preservado

Page 17: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

User-agent: * Disallow: /administrator/Disallow: /cache/Disallow: /components/Disallow: /editor/Disallow: /help/Disallow: /images/Disallow: /includes/Disallow: /language/Disallow: /mambots/Disallow: /media/Disallow: /modules/Disallow: /templates/Disallow: /installation/Disallow: /dmdocuments/

Exclusões pré-definidas pelos Sistemas de Gestão de Conteúdos (CMS) causaram problemas

Page 18: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

B-on.pt: Robots exclusion protocol configurado corretamente

Page 19: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

O Sistema de Recolha do Arquivo.pt está devidamente identificado.

Permitir o acesso ao Arquivo.pt

User-agent: Arquivo-web-crawlerDisallow:

Page 20: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Utilize um endereço para cada conteúdo (#3)

Page 21: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Conteúdos escondidos atrás de formulários

Page 22: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Conteúdos escondidos atrás de formulários

Page 23: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Conteúdos escondidos atrás de formulários

Page 24: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Mapa do Site facilita acesso a pessoas (usabilidade) e máquinas (SEO)

Page 25: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Mantenha o mesmo endereço ao longo do tempo (#4)

Page 26: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Problema: quebra de histórico devido a mudança de endereço do site

http://iscte.pt

http://iscte-iul.pt

Page 27: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Mantenha o histórico redirecionando os endereços antigos para os novos

Page 28: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Utilize formatos adequados para preservação (#5)

Page 29: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Problema: Utilização de Flash

Page 30: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

“It breaks with the Web’s fundamental interaction principles”

Page 31: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

http://www.occupyflash.org/

Page 32: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Condições de licenciamento que permitam a sua utilização.

Normas emitidas por um organismo oficial (W3C).

Documentados abertamente através de uma especificação pública.

Lidos e escritos por múltiplas plataformas de software, incluindo código-aberto.

Amplamente usados.

Escolha formatos com:

Page 33: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Formatos adequados para preservação

TextoHTML, XHTML ou XMLOpen Document Text (.odt)PDF/A-1 segundo a norma ISO 19005-1 (.pdf)

ImagemPNG (.png)JPEG2000

VideoAVI sem compressão (.avi)

Page 34: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Formatos não adequados para preservação

Texto:Microsoft Word (.doc)

Imagem:Macromedia Flash (*.swf)PhotoShop (.psd)

Vídeo:Windows Media Video (.wmv)

Page 35: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Utilize meta-dados para descrever os conteúdos (#6)

Page 36: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Quem é o autor da página?Qual a data da publicação?

Page 37: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Utilizar meta-dados (Dublin Core)

<meta name="DC.Type" content="Text" /> <meta name="DC.Creator" content="Daniel Gomes" /> <meta name="DC.Date.Created" content="2009-08-21" /> <meta name="DC.Date.Modified" content="2009-11-10" />

Esta informação resume, enriquece ou complementa os conteúdos, produzindo assim um potencial incremento de informação.

Computadores conseguem utilizar esta informação.

Page 38: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Recomendações para evitar problemas de preservação

1. Identifique corretamente a data de publicação

2. Use corretamente o protocolo de exclusão de robots

3. Use um endereço para cada conteúdo

4. Mantenha endereços ao longo do tempo

5. Utilize formatos adequados para preservação

6. Publique metadados para enriquecer os conteúdos

Page 39: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Ferramentas para avaliar se uma página é preservável

Verifique se o seu site é preservável

Page 40: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

http://archiveready.com

Page 41: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

http://archiveready.com

Page 42: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Crie o seu Arquivo da WebPreserve você mesmo

Page 43: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

https://webrecorder.io

Page 44: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos
Page 45: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Selecionar

1 2

Capturar

WARC

WARC (Web ARChive)ISO 28500:2017

WARC

3

Reprodução

Page 46: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Oldweb.todayLook and Feel do passado

Page 47: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

http://oldweb.today

Page 48: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos
Page 49: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Recolhas de Alta-QualidadeAjudamos a preservar melhor o seu site

Page 50: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Recolha Normal

https://www.autarquicas2017.mai.gov.pt/

Page 51: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Recolha Alta-Qualidade

https://www.autarquicas2017.mai.gov.pt/

Page 52: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Recolhas de Alta-Qualidade

Recolha Normal Recolha de Alta-Qualidade

Limites de recolha

Pré-definidos.10 MB por ficheiro10 000 URLs por site5 links de profundidade

Customizados

Avaliação de preservabilidade pré-recolha (ex. Robots.txt) Não disponível Sim

Procotolo de acesso Apenas HTTP diretoPreservação de contéudos especiais (ex: AJAX ou vídeos em streaming)

Curadoria pós-recolha Não disponível Sim. Controlo de qualidade em colaboração.

Repetição de recolha Não disponível Sim. Preservação de contéudos em falta.

Redes Sociais Não disponível Sim

Manutenção de endereço original Não disponível Sim. Dependendo de limitações

(ex. Pagamento do domínio)

Page 53: Como publicar informação preservável para o futuro · Gestão de Conteúdos (CMS) causaram problemas. B ... Utilize um endereço para cada conteúdo (#3) Conteúdos escondidos

Siga as recomendações: arquivo.pt/recomenda

Existem ferramentas que o podem ajudar.

Contacte-nos se precisar de uma Recolha de Alta-Qualidade: [email protected]