『SQLパフォーマンス詳解』を読んだ

RDBのインデックス作成の戦略や実行計画の読みかたにもう少し詳しくなりたいと思っていたので、この手の話題が体系的にまとめられている『SQLパフォーマンス詳解』を読んだ。今回は和訳版を公式サイトで購入したが、SQLのインデックスとそのチューニングについてのオンラインブックでも同じ内容が読める。

内容

200ページ程度と短くまとまった本であることからわかるように、RDBのインデックスとその効果的な使いかただけに焦点を当てて解説している。書籍で示されている目次とは異なるが、次のような内容にまとめられると思う:

  • インデックスを実現するBツリーについて
  • インデックスの種類(複合インデックス、式インデックス、部分インデックスなど)について
  • (本文では主にOracleだが)実行計画の読み解きかたについて
  • 実行計画をもとにインデックスとクエリをチューニングする方法について

第2章の「where句」の分量が割合として多く、そこでwhereを使うときのチューニング方法や注意点が説明されている。joinやソート(order by)は別の章でそれぞれ説明がある。また、RDBの主要な各プロダクトについて実行計画の読みかたが付録でついていて、その点も便利。

実験用の環境

動かしながらのほうが本の内容を理解しやすいので実験用の環境を作った。

https://github.com/kymmt90/sql-performance-explained

ふだんPostgresを使うことが多いので、Postgresで実験できるようにした。書籍中で出てくるスキーマのテーブルに合わせて、ランダムな値を持つ大量のデータをRubyスクリプトでCSVとして作成し、psqlからcopyコマンドで一括投入することで、データ量の多い環境を再現した。本を読みながら、この環境でインデックスやクエリを変更して実行計画が変わることを確認できたので、理解の促進に役立った。

所感

アプリケーションの開発者がクエリがどのように使われるかを把握しているので、インデックスを効果的に張ることは開発者の仕事である、ということが書いてあったのがよかった。また、読みながらちょっと脇道にそれて、Postgresでlikeでインデックスを使うときは演算子クラスを付与する必要があることや、Postgresの実行計画で出てくるBitmap Heap ScanのRecheckについて次の記事で知ることができたのもよかった。

taityo-diary.hatenablog.jp

RDBの本にしては短くまとまっていて(個人の感想です)、すぐに読めるので、RDBを使うアプリケーションを書く人はみんな読めばいいのではと思いました。

macOSのDay Oneにプレーンテキストをインポートする

  • macOS Catalina 10.15.4
  • Day One 4.11.1

とします。

Day Oneのインポート機能

Day Oneはさまざまな形式のデータをエントリとしてインポートできる。

Importing data to Day One | Day One Help

日付形式の問題

上述したサポートページには、プレーンテキストをインポートするときは次のような形式にすると書いてある。

    Date:    June 24, 2016 at 10:59:06 AM MDT

test


    Date:    June 25, 2016 at 10:59:06 AM MDT

testtest
...

これはDay Oneの言語設定が英語のときは正しいのだが、それ以外の場合はこの形式のDateの値だとインポートでエラーになる。例えば、macOSのシステム言語設定が日本語だと、デフォルトでアプリの言語設定も日本語になるので、エラーが発生してしまう。

解決方法

二つある。

一つ目は、言語設定に応じたDateの形式にする方法。言語設定が日本語のときは、Dateの値を日本語表記にすることでインポートできる。

    Date:    2016年6月25日 01:59:06 AM JST

test


    Date:    2016年6月26日 01:59:06 AM JST

testtest
...

二つ目は、システム設定からアプリの言語設定を変える方法。「システム環境設定」→「言語と地域」→「アプリケーション」からアプリごとの言語設定を追加できる。ここでDay Oneの言語設定を英語にすれば、サポートページと同じ日時形式でプレーンテキストをインポートできる。

f:id:kymmt90:20200421221330p:plain

GraphQL開発のベストプラクティスをまとめた"Principled GraphQL"を読んだ

"Principled GraphQL"はApollo社が公開しているGraphQL開発のベストプラクティス集です。

principledgraphql.com

背景として、近年のアプリケーション開発では「データグラフ」が重要になってきているとしています。GraphQLを通じて、ある企業のすべてのアプリのデータとサービスとを統合してデータグラフとして提供することで、クライアントとしてのアプリケーションから効率よく簡単にサービスを使うことができるようになります。もはやGraphQLはクエリ言語というより、クライアントとサービス間の接続を担う包括的なソリューションなので、いろいろと考えるべきことも多く、GraphQL開発の統合環境を提供していて経験豊富なApolloがベストプラクティスをまとめた、というところのようです。

実際のところ最近GraphQLを触っていないのですが、ざっくり読んでみました。


構成

ドキュメントのフォーマットは"the Twelve-Factor App"に影響を受けていて、各項目では守るべき原則を表す簡潔なタイトルとリード文に続いて、具体的な説明が載る構成。ただし"Principled GraphQL"は10箇条であり、次の3件にカテゴリ分けされている。

  • Integrity Principles
  • Agility Principles
  • Operations Principles

Integrity Principles

One Graph

  • 各チームでバラバラにグラフを作るのではなく、会社で一つの統合されたグラフを作る
  • 利用者にとっては無駄や重複のないグラフとなって使い勝手が向上し、開発者にとってはスキルの共有や開発コストの削減になる

例えば、ある会社がジャンルの違う複数サービスを持っている場合は、それらの既存のREST APIなどをApolloプロダクトでデータグラフとして統合すべき、という意図と読める。

Federated Implementation

  • グラフの各部分の実装は複数チームでやる
  • チームごとに各々のリリースサイクルで開発できる

Apollo Federationでバックエンドの違いは吸収できる。"One Graph"と表裏一体の関係にあるような原則。

Track the Schema in a Registry

  • schema registryで変更を追跡する
    • schema registryはソースコードにおけるバージョン管理システムにたとえられている
  • VS Codeでの補完やスキーマバリデーションに利用できる
  • single source of truthとして扱う

schema registryはApolloの場合The schema registryのこと。知らなかったが便利そう。

Agility Principles

Abstract, Demand-Oriented Schema

  • スキーマとサービス/クライアントを疎結合にして、実装を隠して柔軟に利用できる抽象層として扱う
  • demand-orientedで開発する
    • 既存のグラフで機能開発しているアプリ開発者の開発者体験(DX)を高められるようなスキーマとする

インタフェースを設けることでバックエンドのアーキテクチャ変更も理論的には可能になるというのはソフトウェアエンジニアリングで頻出なので、もはや一般的な原則という感じもする。

Use an Agile Approach to Schema Development

  • 実際の要求に基づいてインクリメンタルにスキーマは開発していく
  • 定期的なバージョニングより必要なときにリリースする
    • スキーマにバージョンをつけて半年ごとに公開するよりは、必要なときに頻繁にリリース
    • いつでも新規フィールドを追加する。フィールドの削除時は非推奨化→削除の順で進める
  • schema registryを使って変更の影響をつねに確認できるようにしておくのも効果的

Apolloだと@deprecatedディレクティブがある。

Iteratively Improve Performance

  • グラフ利用者がどのように使おうとしているかをAPI開発者は知るべき
  • 実際に送られる形のクエリのパフォーマンス改善をすべき
  • 本番ではパフォーマンスを継続的に監視する

GraphQLはエンドポイントが一つで従来のAPMが使いづらいので、パフォーマンス監視のために後述するtracerがあったほうがよさそう。

Use Graph Metadata to Empower Developers

  • 開発のプロセス全体を通してグラフを使うことを意識する
  • ドキュメンテーション、補完、クエリのコスト計算、CIで変更の影響確認…
  • アプリで使うクエリを運用チームにも共有して、性能的に問題ないか見てもらう
  • 静的型付言語で型チェックに利用

型のついたスキーマを使うと補完が捗りそうというのは容易に想像がつく。GraphQLはクエリのコストを気にする必要があるので、そこへの対策もここで入ってくる。

Operations Principles

Access and Demand Control

  • クライアントごとにグラフへのアクセス権限を管理する
    • access: どのオブジェクトやフィールドにアクセスできるか
    • demand: どのようにどの程度リソースにアクセスできるか
      • クエリのコストを測定して制御する必要がある
  • demand controlのベストプラクティス
    • 認証済みの開発者が事前に登録したクエリだけを実行できるようにする
      • 内部アプリは緩和もOK
    • クエリのレビュー/承認フローを開発サイクルに組み込む
    • クエリコストの試算とユーザーごとアプリごとの利用可能コスト上限を決めておくことで、クエリの事前登録ができないときに対応する
    • もしものときのためにアプリ開発者は特定クエリの送信をとめられるようにしておく

GraphQL APIを公開するときはもちろん、内部的なAPIとして使うときも意図せずクエリのコストが高くなることはあるだろうと考えられるので、とにかく実行されるクエリの管理やコストの事前計測が大事そう。

Structured Logging

  • グラフに対する操作の構造化ログを取得し、グラフ利用状況を理解するためのツールとして扱う
    • 活用しやすいようにmachine readableな形式で取得する
  • グラフ操作の記録をトレースという
    • Analyzing performance - Graph Manager - Apollo GraphQL Docsで紹介されているようなアナリシスの機能
    • ビジネス情報(データがどのように使われているか)と技術的情報(どのバックエンドを使ったか、レイテンシ、キャッシュ利用の状況など)
  • フィールド利用状況の調査、監視、監査データ収集、BI、API利用料計算などに使える
  • traceは一か所に集めて、加工して監視システムに流すか、データウェアハウスにためておくとよい

Separate the GraphQL Layer from the Service Layer

  • GraphQLの層はサービスの層と分けるべき
  • 各サービスにはデータグラフをシステムとして提供するためのロードバランスやAPIキー管理の機能を入れず、クライアントのリクエストに対応することに専念させる
  • クエリの一部はエッジのキャッシュで返し、別の部分は他のサービスに問い合わせつつ、すべての操作をtraceで記録するということが可能になる
    • バックエンドのサービスはREST, gRPCなどさまざまな方式で存在しうる

REST APIにおけるAPI Gatewayのような役割。Apollo FederationにおけるGatewayがここで述べられている層の役割の一部を担っている。


感想

スキーマの活用が便利というのはもちろんのこと、クエリのコストについてさまざまな方法で十分な注意を払うべきという主張がなされているのは興味深かったです。原則を示しつつ、Apolloがそれに対応するツールを用意しているところが強いなという印象でした。

興味があるかたは読んでみてください。

値の妥当性をチェックする日時表現パーサを作る

Haskell入門』に日時表現("YYYY/MM/DD hh:mm:ss")のパーサをAttoparsecで作る節*1があり、

このままでは9999/99/99 99:99:99のような入力ができてしまいますが、月の入力範囲を1~12に制限するといった制約をかけることも、これまで説明した範囲で簡単に実現できます

という記述があったので、値の入力範囲に制限があるバージョンを書いてみた。具体的にはguardを使う*2

{-# LANGUAGE OverloadedStrings #-}

import qualified Data.Text as T
import Control.Monad
import Data.Attoparsec.Text hiding (take)

data YMD = YMD Int Int Int deriving Show
data HMS = HMS Int Int Int deriving Show

countRead :: Read a => Int -> Parser Char -> Parser a
countRead i = fmap read . count i

year :: Parser Int
year = countRead 4 digit

month :: Parser Int
month = do
  month <- countRead 2 digit
  guard $ 1 <= month && month <= 12
  return month

day :: Parser Int
day = do
  day <- countRead 2 digit
  guard $ 1 <= day && day <= 31
  return day

hour :: Parser Int
hour = do
  hour <- countRead 2 digit
  guard $ 0 <= hour && hour <= 23
  return hour

minute :: Parser Int
minute = do
  minute <- countRead 2 digit
  guard $ 0 <= minute && minute <= 59
  return minute

second :: Parser Int
second = do
  second <- countRead 2 digit
  guard $ 0 <= second && second <= 59
  return second

ymdParser :: Parser YMD
ymdParser = YMD <$> year <* char '/' <*> month <* char '/' <*> day

hmsParser :: Parser HMS
hmsParser = HMS <$> hour <* char ':' <*> minute <* char ':' <*> second

dateTimeParser :: Parser (YMD, HMS)
dateTimeParser = (,) <$> ymdParser <* char ' ' <*> hmsParser

各パーサ関数でControl.Monadguardに年、月、日、時、分、秒それぞれが満たすべき条件式を渡す。パースした結果得られた整数がguardに渡した条件を満たさないとき、結果がemptyになる。

ParserAlternativeのインスタンスであり、emptyを返した時点でfail "empty"が実行される。この時点でパースが中止される。

それぞれの関数を組み合わせることでApplicativeスタイルでパーサを表現できている。

上のコードを読み込んだ状態で次のコードを実行する:

main :: IO ()
main = do
  print $ parse dateTimeParser "2020/03/01 12:34:56" `feed` ""
  print $ parse dateTimeParser "2020/03/32 12:34:56" `feed` ""

このとき結果は次のとおりで、invalidな値を渡すとパースに失敗する:

Done "" (YMD 2020 3 1,HMS 12 34 56)
Fail " 12:34:56" [] "Failed reading: empty"

*1:7.5「高速なパーサ ─ attoparsec」

*2:5.3.3「Alternative型クラスとしてのMaybe」で説明されているので一応「これまで説明した範囲」ではある

リソースとActive Recordのモデルのあいだの差異を吸収するクラスを作る

Web APIのリソースとバックエンドで扱うモデル(特にActive Recordのモデル)に歴史的な事情で差異があり、単純にモデルからリソースへと変換できないとき、それらの差異を吸収するクラスを作って対応することがあったのでメモを残しておきます。


問題

あるWeb APIに、親リソース*1authorが1:Nで持つ子リソースbookの一覧だけを返すエンドポイントGET /booksを追加しようとしていた*2。追加するエンドポイントが返すリソースの例を示す:

{
  "books": [
    {
      "id": 1
      "author_id": 1,
      "title": "Bar",
      "publisher": "Baz, Inc.",
      "released_at": "2020-01-01"
    },
    // ...
  ]
}

なお、従来から、親リソースGET /authorsを取得するときにはbooksも取得はできていたとする。また、既存のAPIリソースはActive Model Serializer (AMS)で生成しているとする。

このエンドポイントで返すリソースが持つフィールド、リソースに対応するActive Record (AR)のモデルの属性、データベース上の対応するテーブルのカラムには、それぞれ微妙にズレが見られた。具体的には次のような問題があった:

  1. ARのモデルが持っている属性の一部だけがリソースの属性となる
  2. テーブルのカラム名とリソースのフィールド名/モデルの属性名が異なる
  3. APIリソースのフィールド名とARモデルのリレーション名が被っている

まず、ARのモデルが持っている属性、すなわち対応するテーブルが持っているすべてのカラムのうち一部だけがリソースの属性となっていた。この場合、リソースを表すJSONに変換するときにフィルタする必要がある。

create_table :books do |t|
  t.column :title, :string
  t.column :release_date, :date
  t.column :memo, :string # リソースには含めない
  # ...
end

また、テーブルのカラム名をよりわかりやすくするために、その後に作られたモデルやAMSのシリアライザでは改名された属性名を使っているケースがあった。

class Book < ApplicationRecord
  alias_attribute :title, :name
end

class BookSerializer < ActiveModel::Serializer
  def released_at
    object.release_date
  end
end

さらに、特殊な事例だが、ARのモデルではリレーションとして定義されている名前が、AMSで生成されるリソースではスカラーな値として提供されているケースがあった。

class Book < ApplicationRecord
  belongs_to :publisher
end

class Publisher < ApplicationRecord
  has_many :books
end

class BookSerializer < ActiveModel::Serializer
  attributes :publisher

  def publisher
    object.publisher.name
  end
end

後述するが、このケースでAMSを使わないようにする場合、リソース用に加工したフィールドの値を作る必要がある。しかし、今回はリレーションとしてそのフィールドと同名のメソッドが存在するので、メソッド名に気をつけないと、そのリレーションを使っている他のコードが壊れてしまってうまくいかない。

今回は、既存のコードをできるだけ変えずにこれらの問題に対処しながら、エンドポイントGET /booksを追加したいとする。

リソースとモデルの間の差異を吸収する層を導入する

問題を解決するために、リソースとモデルの間の差異を吸収する層を導入する。今回はAMSを使わず実現した*3。POROにActive Modelを組み合わせて使う。

次のようにリソースのフィールドとモデルの属性のマッピングを持たせたクラスを書く。リソースだけで使うメソッドはモデルに書く。

class Book < ApplicationRecord
  # ...

  concerning :Api do
    def publisher_name
      publisher.name
    end
  end
end

class Book::ListResource
  include ActiveModel::Model

  attr_accesor :books

  ATTRS_AND_METHODS = {
    id: :id,
    author_id: :author_id,
    title: :title,
    publisher: :publisher_name,
    released_at: :release_date
  }

  def build
    books.map do |book|
      ATTRS_AND_METHODS.map { |attr, method|
        [attr, book.send(method)]
      }.to_h
    end
  end
end

次のように使う。

# コントローラ内での利用例
@books = Book::ListResource.new(
  books: Book.order(:id).limit(20)
)

# JBuiderのテンプレート
json.books @books

感想

  • pros
    • 既存の実装に影響を与えず、コントローラからもシンプルにリソースを生成できた
  • cons
    • ATTRS_AND_METHODSのようなマッピングを書かないといけない
    • 新しい層を導入するので設計意図をなんらかの手段で伝える必要がある

*1:リソースは「APIが返すデータの構造」ぐらいの意味合いとする

*2:これはあくまでも例

*3:内部事情