A small DOCUMERICA Twitter bot

1
2
3
base="https://catalog.archives.gov/api/v1"
curl "${base}/?description.item.parentSeries.naId=542493&rows=10000&sort=naId%20asc" > 1.sort.json
curl "${base}/?description.item.parentSeries.naId=542493&rows=10000&offset=10000&sort=naId%20asc" > 2.sort.json

1
2
$ jq -c '.opaResponse.results.result | .[]' 1.sort.json 2.sort.json | wc -l
15992

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
  "objects":{
    "@created":"2015-01-01T00:00:00Z",
    "@version":"OPA-OBJECTS-1.0",
    "object":[
      {
        "@id":"14676552",
        "@objectSortNum":"1",
        "technicalMetadata":{
          "size":"137930",
          "mime":"image\/gif",
          "Chroma_BlackIsZero":"true",
          "Chroma_ColorSpaceType":"RGB",
          "Chroma_NumChannels":"3",
          "Compression_CompressionTypeName":"lzw",
          "Compression_Lossless":"true",
          "Compression_NumProgressiveScans":"4",
          "height":"600",
          "width":"405"
        },
        "file":{
          "@mime":"image\/gif",
          "@name":"01-0237a.gif",
          "@path":"content\/arcmedia\/media\/images\/1\/3\/01-0237a.gif",
          "@type":"primary",
          "@url":"https:\/\/catalog.archives.gov\/OpaAPI\/media\/542495\/content\/arcmedia\/media\/images\/1\/3\/01-0237a.gif"
        },
        "thumbnail":{
          "@mime":"image\/jpeg",
          "@path":"opa-renditions\/thumbnails\/01-0237a.gif-thumb.jpg",
          "@url":"https:\/\/catalog.archives.gov\/OpaAPI\/media\/542495\/opa-renditions\/thumbnails\/01-0237a.gif-thumb.jpg"
        },
        "imageTiles":{
          "@path":"opa-renditions\/image-tiles\/01-0237a.gif.dzi",
          "@url":"https:\/\/catalog.archives.gov\/OpaAPI\/media\/542495\/opa-renditions\/image-tiles\/01-0237a.gif.dzi"
        },
      },
      {
        "@id":"209221188",
        "@objectSortNum":"2",
        "file":[
          {
            "@mime":"image\/jpeg",
            "@name":"412-DA-00002_01-0237M.jpg",
            "@path":"\/lz\/stillpix\/412-da\/412-DA-00002_01-0237M.jpg",
            "@type":"primary",
            "@url":"https:\/\/catalog.archives.gov\/catalogmedia\/lz\/stillpix\/412-da\/412-DA-00002_01-0237M.jpg"
          },
          {
            "@mime":"image\/tiff",
            "@name":"412-DA-00002_01-0237M.TIF",
            "@path":"\/lz\/stillpix\/412-da\/412-DA-00002_01-0237M.TIF",
            "@type":"archival",
            "@url":"https:\/\/catalog.archives.gov\/catalogmedia\/lz\/stillpix\/412-da\/412-DA-00002_01-0237M.TIF"
          }
        ],
        "thumbnail":{
          "@mime":"image\/jpeg",
          "@path":"opa-renditions\/thumbnails\/412-DA-00002_01-0237M.jpg-thumb.jpg",
          "@url":"https:\/\/catalog.archives.gov\/catalogmedia\/live\/stillpix\/412-da\/412-DA-00002_01-0237M.jpg\/opa-renditions\/thumbnails\/412-DA-00002_01-0237M.jpg-thumb.jpg"
        },
        "imageTiles":{
          "@path":"opa-renditions\/image-tiles\/412-DA-00002_01-0237M.jpg.dzi",
          "@url":"https:\/\/catalog.archives.gov\/catalogmedia\/live\/stillpix\/412-da\/412-DA-00002_01-0237M.jpg\/opa-renditions\/image-tiles\/412-DA-00002_01-0237M.jpg.dzi"
        }
      },
      {
        "@id":"209439452",
        "@objectSortNum":"3",
        "file":[
          {
            "@mime":"image\/jpeg",
            "@name":"412-DA-00002_01-0237M.jpg",
            "@path":"\/lz\/stillpix\/412-da\/412-DA-00002_01-0237M.jpg",
            "@type":"primary",
            "@url":"https:\/\/catalog.archives.gov\/catalogmedia\/lz\/stillpix\/412-da\/412-DA-00002_01-0237M.jpg"
          },
          {
            "@mime":"image\/tiff",
            "@name":"412-DA-00002_01-0237M.TIF",
            "@path":"\/lz\/stillpix\/412-da\/412-DA-00002_01-0237M.TIF",
            "@type":"archival",
            "@url":"https:\/\/catalog.archives.gov\/catalogmedia\/lz\/stillpix\/412-da\/412-DA-00002_01-0237M.TIF"
          }
        ],
        "thumbnail":{
          "@mime":"image\/jpeg",
          "@path":"opa-renditions\/thumbnails\/412-DA-00002_01-0237M.jpg-thumb.jpg",
          "@url":"https:\/\/catalog.archives.gov\/catalogmedia\/live\/stillpix\/412-da\/412-DA-00002_01-0237M.jpg\/opa-renditions\/thumbnails\/412-DA-00002_01-0237M.jpg-thumb.jpg"
        },
        "imageTiles":{
          "@path":"opa-renditions\/image-tiles\/412-DA-00002_01-0237M.jpg.dzi",
          "@url":"https:\/\/catalog.archives.gov\/catalogmedia\/live\/stillpix\/412-da\/412-DA-00002_01-0237M.jpg\/opa-renditions\/image-tiles\/412-DA-00002_01-0237M.jpg.dzi"
        }
      }
    ]
  }

1
2
3
4
5
6
7
8
9
10
11
12
13
14
jq -c \
  '.opaResponse.results.result |
   .[] |
   {
      naid: .naId,
      title: .description.item.title,
      author: .description.item.personalContributorArray.personalContributor.contributor.termName,
      date: .description.item.productionDateArray.proposableQualifiableDate.logicalDate,
      files: [
        .objects.object | if type == "array" then . else [.] end |
        .[] |
        (.file | if type == "array" then . else [.] end)
      ] | flatten | map(select(.))
   }' 1.sort.json 2.sort.json > documerica.jsonl

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
{
  "naid": "542494",
  "title": "DISCARDED PESTICIDE CANS",
  "author": "Daniels, Gene, photographer",
  "date": "1972-05-01T00:00:00",
  "files": [
    {
      "@mime": "image/gif",
      "@name": "01-0236a.gif",
      "@path": "content/arcmedia/media/images/1/3/01-0236a.gif",
      "@type": "primary",
      "@url": "https://catalog.archives.gov/OpaAPI/media/542494/content/arcmedia/media/images/1/3/01-0236a.gif"
    },
    {
      "@mime": "image/jpeg",
      "@name": "412-DA-00001_01-0236M.jpg",
      "@path": "/lz/stillpix/412-da/412-DA-00001_01-0236M.jpg",
      "@type": "primary",
      "@url": "https://catalog.archives.gov/catalogmedia/lz/stillpix/412-da/412-DA-00001_01-0236M.jpg"
    },
    {
      "@mime": "image/tiff",
      "@name": "412-DA-00001_01-0236M.TIF",
      "@path": "/lz/stillpix/412-da/412-DA-00001_01-0236M.TIF",
      "@type": "archival",
      "@url": "https://catalog.archives.gov/catalogmedia/lz/stillpix/412-da/412-DA-00001_01-0236M.TIF"
    },
    {
      "@mime": "image/jpeg",
      "@name": "412-DA-00001_01-0236M.jpg",
      "@path": "/lz/stillpix/412-da/412-DA-00001_01-0236M.jpg",
      "@type": "primary",
      "@url": "https://catalog.archives.gov/catalogmedia/lz/stillpix/412-da/412-DA-00001_01-0236M.jpg"
    },
    {
      "@mime": "image/tiff",
      "@name": "412-DA-00001_01-0236M.TIF",
      "@path": "/lz/stillpix/412-da/412-DA-00001_01-0236M.TIF",
      "@type": "archival",
      "@url": "https://catalog.archives.gov/catalogmedia/lz/stillpix/412-da/412-DA-00001_01-0236M.TIF"
    }
  ]
}

1
2
3
4
5
6
7
8
CREATE TABLE documerica (
    naid INTEGER UNIQUE NOT NULL, -- the National Archives ID for this photo
    title TEXT,                   -- the photo's title/description
    author TEXT NOT NULL,         -- the photo's author
    created TEXT,                 -- the ISO8601 date for the photo's creation
    url TEXT NOT NULL,            -- a URL to the photo, as a JPEG
    tweeted INTEGER NOT NULL      -- whether or not the photo has already been tweeted
)

1
2
3
4
5
6
media_id = api.UploadMediaSimple(io)
api.PostMediaMetadata(media_id, photo["title"])
api.PostUpdate(
    f"{tweet}\n\n{archives_url(photo['naid'])}",
    media=media_id,
)

ENOSUCHBLOG

Programming, philosophy, pedaling.

A small DOCUMERICA Twitter bot

Oct 25, 2021 Tags: art, data, devblog, python

Getting the data

Normalization

Database-ification

The bot

Wrapup