Simon Willison opracował narzędzie do ekstrakcji tabel HTML, które automatycznie konwertuje tabele z wklejanych treści bogatych w tekst na pięć różnych formatów: HTML, Markdown, CSV, TSV i JSON. Wystarczy zaznaczyć i wkleić zawartość ze strony internetowej zawierającą tabelę - narzędzie automatycznie ją wykrywa i konwertuje. Autor zademonstrował działanie na stronie List of cities and towns in the San Francisco Bay Area z Wikipedii.
To narzędzie jest częścią rosnącej kolekcji narzędzi do konwersji formatów, które Willison tworzy dla swojej platformy. Dodatkowo autor niedawno przebudował swoje wcześniejsze narzędzie Rich text to markdown, dodając do niego obsługę tabel i ulepszając interfejs użytkownika.
Parallelnie Willison odkrył, że Wikipedия udostępnia otwarte API z CORS umożliwiające pobranie pełnej zawartości HTML każdej strony. Wykorzystując tę możliwość, dodał do narzędzia funkcję wyszukiwania artykułów Wikipedii oraz automatycznego importu i wyświetlania tabel z wybranych stron. To podejście znacznie przyspieszył pracę z danymi tabelarycznymi dostępnymi w Wikipedii bez konieczności ręcznego kopiowania i czyszczenia formatowania.